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计算 机 科学 正在 发 生 深刻 的 变革 ， 随 着 典 入 式 系统 的 广泛 应 用 ， 每 年 全 世界 售 出 的 藤 入 式 计算 机 
大 约 是 桌面 计算 机 的 40 倍 ， 大 学 毕业 生 将 更 多 地 从 事 肉 入 式 系统 硬件 的 设计 ， 而 不 是 设计 一 个 传统 的 桌 
面 计算 机 。 计 算 学 科 发 展 和 产业 界 的 技术 进步 ， 要 求 高 等 教育 也 进行 与 时 俱 进 的 改革 。 本 书 采 用 现代 
视角 来 看 待 当 今 的 计算 机 体系 结构 ， 强 调 日 益 重要 的 藤 入 式 系统 ， 以 满足 教育 界 和 工业 界 对 于 硬件 设 
计 人 才 培 养 的 需求 。 

本 书 在 提供 计算 机 体系 结构 背景 知识 的 基础 上 ， 将 讲述 的 重点 放 在 我 们 每 天 生活 和 工作 都 要 依赖 
的 代入 式 系统 上 。 书 中 首先 介绍 了 算术 和 处 理 中 的 基础 知识 ， 随 后 分 几 章 讨论 了 CPU 结构 、 功 能 单元 、 
性 能 优化 、 外 部 接口 、 实 际 和 藤 入 式 处 理 和 计算 的 未 来 。 本 书 还 提出 了 岁入 式 工 业 中 关键 的 几 个 特定 主 
题 ， 以 及 在 CPU 设 计 项 目 中 包含 设计 、 仿 真 、 测 试 和 规划 一 个 简单 容 入 式 计算 机 的 一 切 必 要 步骤 。 

本 书 所 采用 的 嵌入 式 系统 相关 的 方法 ， 使 得 书 中 的 知识 内 容 更 加 贴近 工业 界 的 需要 ， 激 励 学 生 更 
投入 地 学 习 ， 并 构建 起 该 门 课程 与 传统 课程 体系 内 其 他 相关 课程 ( 如 电子 学 、 计 算 机 工程 或 计算 机 科 
学 课程 ) 的 相互 联系 。 本 书 不 是 在 传统 计算 机 体系 结构 教材 的 基础 上 扩展 了 获 入 式 系统 的 一 章 ， 而 是 
以 新 颖 的 视角 来 看 待 今天 的 计算 机 体系 结构 一 一 它 以 历史 上 巨大 而 古老 的 机 器 为 基础 ， 现 在 正 朝 着 菊 
入 式 系 统 高 度 集成 化 的 方向 不 断 发 展 。 
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本 书 在 传统 计算 机 体系 结 父 教科书 的 基础 之 上 扩展 了 艇 人 式 系统 的 内 容 ， 并 以 新 颖 而 完 
整 的 视角 看 待 今天 的 计算 机 体系 结构 。 前 两 章 讲 了 计算 机 的 发 展 和 算术 处 理 基础 知识 ， 随 后 
分 别 介绍 了 CPU 结构 、 功 能 单元 、 人 性 能 优化 、 外 部 接口 、 实 际 嵌 人 式 处 理 和 计算 的 未 来 。 本 
书 不 仅 通 过 大 量 的 图 表 和 例子 来 增强 可 读 性 ， 同 时 文中 还 穿插 了 许多 注释 框 来 拓宽 读者 的 视 
野 ， 其 中 包括 一 些 额外 的 例子 、 有 趣 的 信息 摘要 和 附加 的 解释 。 书 中 除了 包含 典 入 式 工程 师 
所 需 的 所 有 与 典型 计算 机 体系 结构 理论 课程 有 关 的 主要 内 容 外 ， 还 包括 大 量 对 目标 读者 有 用 
的 信息 一 一 甚至 给 读者 提供 建立 和 测试 自 定义 软 核 处 理 器 的 机 会 ， 每 一 个 主要 的 章节 末尾 都 
配 有 思考 题 ， 在 教学 指南 中 有 参考 答案 。 更 多 的 案例 和 建议 的 阅读 材料 参见 网 站 
www. mheducation. asia/olc/ mcloughlin。 

本 书 适合 于 选择 了 计算 机 体系 结构 相关 课程 的 本 科 生 ， 尤 其 是 大 三 学 生 ， 也 适合 于 那些 在 
开始 更 深层 次 的 课题 之 前 需要 了 解 计算 机 体系 结构 最 新 知识 的 研究 生 ， 还 适合 于 行业 工程 师 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 墓 
出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 
许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 划 了 研究 的 
范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 
减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 益 迫 
切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显得 举 
足 轻重 。 在 我 国信 息 技术 发 展 时 间 较 得 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 几 十 
年 间 积 演 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 
我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 的 世界 一 流 大 学 
的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ， 我 们 就 将 工 
作 重点 放 在 了 以 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson ，MeGraw- Hill， 
Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 
现 有 的 数 百 种 教材 中 杜 选 出 Andrew S. Tanenbaum ，Bjarne Stroustrup ，Brain W. Kermighan ，Dennis 
Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, Wil- 
liam Stallings ，Donald E. Knuth ，John L. Hennessy，Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 
以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 
了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 喜 动 ， 国 内 的 专家 不 仅 提 供 了 中 肯 
的 选 题 指导 ， 还 不 辞 劳 蔡 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 
的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品 
种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 
“经 典 原 版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 
有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 
育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我们 的 目标 是 尽善尽美 ,而 反馈 
的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老师 和 读者 对 我 们 的 工作 提出 建 
议 或 给 予 指正 ,我 们 的 联系 方法 如 下 : 
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在 任何 时 候 都 有 大 批 关于 计算 机 体系 结构 的 书籍 出 版 。 许 多 著名 作者 都 试图 在 该 领域 有 所 
作为 ， 然 而 ， 计 算 机 是 一 个 高 速 发 展 的 领域 ， 因 此 ， 几 乎 没有 书籍 可 以 不 加 改动 便 能 跟 上 时 代 的 
步伐 。 首 先 ， 向 嵌 人 式 计 算 系 统 的 迅速 转变 就 让 许多 作者 及 其 所 写 的 东西 落伍 了 。 有 些 教科 书 坚 
持 将 计算 机 看 做 是 20 世纪 50 ~ 60 年 代 像 房子 大 小 的 机 器 ， 而 更 多 的 是 将 计算 机 视 为 20 世纪 
80 ~ 90 年 代 的 台式 机 和 服务 器 。 只 有 少数 人 认为 绝 大 多 数 现代 计算 机 已 经 嵌 人 到 我 们 日 常 所 见 的 
物品 中 ， 且 几乎 还 没有 人 意识 到 未 来 是 嵌 人 式 的 ， 即 终 有 一 天 台式 计算 机 将 会 和 50 年 前 的 穿孔 
卡片 计算 机 一 样 ， 被 认为 是 过 时 的 。 

本 书面 向 符 人 式 计算 的 未 来 。 关 于 骨 人 式 处 理 器 的 论题 将 与 其 他 教科 书 中 的 更 为 传统 的 论 
题 放 在 一 起 讨论 ， 而 且 会 尽 可 能 强调 来 自 谋 人 式 世 界 的 实例 。 

这 本 书 的 目标 读者 主要 由 三 部 分 人 群 组 成 。 首 先是 选择 了 计算 机 体系 结构 相关 课程 的 本 科 
生 , 尤其 是 大 三 学 生 。 其 次 是 那些 在 开始 一 个 更 深层 次 的 课题 之 前 需要 计算 机 体系 结构 最 新 知 
识 的 研究 生 们 。 第 三 类 便 是 行业 工程 师 。 随 着 可 重 构 逻辑 电路 ， 特 别 是 FFGA (现场 可 编程 门 阵 
列 ) 不 断 变 大 、 变 快 和 更 加 廉价 ， 人 们 对 于 软 核 计 算 机 愈 发 感 兴趣 ， 它 是 由 工程 师 为 特定 任务 
而 设计 的 CPU。 这 也 许 是 有 史 以 来 第 一 次 ,设计 工具 让 普通 工程 师 有 机 会 设计 和 构建 自己 定制 的 
计算 机 。 这 本 书 将 会 为 工程 师 们 提供 一 个 理解 计算 机 体系 结构 的 传统 和 现代 技术 及 其 权衡 取舍 
的 坚固 的 知识 平台 ， 这 是 一 门 计算 机 设计 的 艺术 。 

本 书 以 全 新 的 视角 写作 而 成 ， 不 会 依靠 任何 一 本 现 有 书籍 。 这 种 做 法 能 让 本 书 避 免 许 多 计 
算 机 发 展 史上 人 们 走 过 的 死胡同 和 无 关 区 域 ， 并 使 它 有 一 个 更 加 精确 定义 的 目标 。 本 书 不 仅仅 
在 计算 机 体系 结构 教科 书 的 基础 之 上 扩展 了 几 章 艇 人 式 系统 内 容 ， 而 且 以 新 颖 而 又 完整 的 视角 
来 看 待 今天 的 计算 机 体系 结构 一 一 它 以 历史 上 巨大 而 古老 的 机 器 为 基础 ， 现 在 正 朝 着 幅 人 式 系 
统 高 度 集成 化 的 方向 不 断 发 展 。 

该 书 间 在 通俗 易 懂 。 在 书 中 穿插 了 许多 图 表 ， 以 便 读 者 理解 那些 星 涩 难 懂 的 概念 ， 同 时 也 有 
许多 注释 框 贯 穿 全 文 ， 其 中 包括 一 些 额外 的 例子 、 有 趣 的 信息 摘要 和 附加 的 解释 ， 用 于 扩充 正 
文 。 除 了 包含 嵌入 式 工 程 师 所 需 的 所 有 与 典型 计算 机 体系 结构 理论 课程 有 关 的 主要 内 容 外 (这 
其 中 不 包括 磁带 存储 、 温 切 斯 特 驱 动 器 和 超级 计算 机 设计 ) ， 本 书 还 包括 大 量 对 目标 读者 有 用 的 
信息 一 一 其 至 给 读者 提供 建立 和 测试 自 定 义 软 核 处 理 器 的 机 会 。 

本 书 通 篇 将 使 用 国际 单位 (SI) ， 也 包括 新 的 计算 机 存储 度量 单位 KB 和 MiB (在 附录 A 里 
有 相关 解释 ) 。 每 一 个 主要 的 章节 末尾 都 配 有 思考 题 ， 在 教师 手册 中 有 参考 管 案 。 更 多 的 例子 和 
推荐 的 进一步 阅读 材料 参见 本 书 相 关 网 站 www. mheducation. asia/olc/mcloughlin。 
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1. 1 本 书 组 织 结构 


计算 机 进化 经 历 了 一 个 漫长 的 历程 : 从 1834 年 Charles Babbage 的 分 析 引 擎 (图 1-1 给 出 了 
他 的 差分 机 ， 它 与 后 来 的 数学 计算 处 理 机 具有 类 似 设计 ) 到 今天 的 超级 计算 机 ， 是 一 段 为 提高 
处 理 能 力 、 复 杂 性 和 微型 化 而 不 懈 努 力 的 佳话 。 

令 人 吃惊 的 是 ，Babbage 当年 的 很 多 技术 (以 及 mp 
20 世纪 40 年 代 的 早期 电子 计算 机 ) 非常 具有 前 瞻 人 as 到 
性 ， 在 当今 系统 中 依然 随处 可 见 。 遗 憾 的 是 ， 与 过 
去 的 关联 并 不 总 是 正面 的 ， 今 天 Intel 台式 处 理 器 由 
于 8086 等 约束 在 性 能 提升 方面 受到 了 限制 。 今 天 
我 们 有 机 会 在 事后 透 过 计算 发 展 的 历史 进行 反思 
从 而 可 以 发 现 许多 短命 的 进化 分 支 ， 这 些 分 支 最 初 
看 来 很 有 前 途 ， 但 很 快 失去 了 生命 力 。 它 们 当中 有 
些 可 能 会 在 后 来 的 一 些 专门 化 机 器 中 重新 出 现 ， 但 
更 多 的 仅仅 成 为 了 一 段 历史 。 

明天 的 计算 机 很 有 可 能 会 建立 在 今天 所 用 的 技 
术 之 上 。 当 前 技术 的 快照 (正如 所 有 计算 机 教科 书 
所 必须 做 的 ) 要 如 实 反映 这 个 事实 ， 而 不 能 脱离 历 
史 地 介绍 技术 。 

本 书 将 按照 技术 进化 过 程 展 开 。 前 面 几 章 重 点 
描述 计算 机 基础 。 掌 握 这 些 基础 能 使 学 生 们 在 纸 面 


a a 4 图 1-1 Babbage 分 析 差 分 机 的 一 部 分 ， 来 
上 构造 出 可 工作 但 效率 低 的 计算 机 。 之 后 的 章节 将 a 










描述 当今 体系 结构 在 提高 性 能 方面 的 先进 技术 。 这 第 175 期 ，p. 34，1864 年 。 在 伦敦 
些 先进 技术 与 计算 机 基础 分 开讲 述 ， 原 因 在 于 它们 科学 博物 馆 可 以 见 到 其 原始 文档 和 
当中 有 些 可 能 是 进化 过 程 中 的 死胡同 , 仪 在 当今 推 一 台 可 工作 的 重建 机 器 

动 Moore 定律 快速 向 前 。 


在 计算 机 体系 结构 方面 最 终 会 出 现 革 命 性 的 变化 一 一 它 将 打破 进化 趋势 ， 使 得 许多 曾经 有 
助 于 提高 性 能 的 技术 被 遗忘 。 本 书 中 不 可 能 确定 这 些 技术 是 什么 但 我 们 可 以 做 一 些 非 正 式 的 
猜测 。 在 本 书 的 最 后 一 章 ， 我们 将 讨论 在 未 来 几 十 年 可 能 带 来 革命 性 变化 的 先进 技术 。 


1.2 进化 过 程 

动物 进化 的 概念 是 有 争议 的 : 至 今 还 没有 科学 的 证 明 ， 很 多 人 也 只 是 选择 相信 它 而 已 。 
人 喜欢 “等 等 看 " ， 期 待 着 科学 最 终 给 出 结论 ， 而 另 一 些 人 则 选择 相信 存在 一 个 万 能 的 不 可 见 的 
创 世 者。 不 管 动物 从 何 而 来 ， 作 为 人 造 设备 的 计算 机 遵循 了 一 个 不 断 改进 的 进化 过 程 ， 这 是 一 个 
不 争 的 事实 。 由 于 缺少 突破 性 进展 ， 计 算 的 历史 多 年 来 充斥 的 是 很 多 小 的 增 量 式 改进 。 

当然 ， 像 计算 机 这 样 复杂 的 设备 需要 由 有 才华 的 工程 师 来 设计 。 我 们 能 够 记得 一 些 工 程 师 

















游 
央 
再 


的 名 字 ， 尤 其 是 那些 做 出 重大 改进 的 人 (其 中 有 些 人 还 活着 ， 向 我 们 讲述 这 些 工作 )。 另 外 ， 那 
些 开创 性 机 器 的 设计 和 历史 承载 着 巨大 代价 ， 应 当 被 很 好 地 记录 下 来 。 

因此 ， 人 们 往往 希望 计算 机 的 发 展 历史 是 清晰 定义 的 ， 对 半 个 世纪 以 来 出 现 的 那些 开创 性 
计算 机 的 认识 没有 困惑 和 争议 。 但 遗憾 的 是 实际 并 不 是 这 样 : 存在 着 非常 不 同 的 意见 ， 关 于 准确 
的 时 间 、 贡 献 、“ 第 一 ”等 几乎 没有 一 致意 见 。 任 意 比 较 两 本 关于 计算 体系 结构 或 计算 机 历史 的 
书 就 会 发 现 这 一 点 。 出 于 本 书目 的 ， 我 们 将 从 巨人 Colossus 开始 展现 计算 机 历史 。 

Colossus (如 图 1-2 所 示 ) 由 工程 师 Tommy Flower 于 1943 年 建造 ， 由 Alan Turing 及 其 在 
Bletchley Park 的 同事 完成 程序 设计 ， 目 前 普遍 认为 这 是 世界 上 第 一 台 可 编程 电子 计算 机 。 这 人 台 计 
算 机 作为 针对 德国 Enigma 编码 的 密码 破译 工程 〈 最 终 成 功 ) 的 一 部 分 构建 于 第 二 次 世界 大 战 中 
的 英国 。 遗 憾 的 是 ，Colossus 属于 英国 官方 保密 法 之 列 而 被 隐藏 了 整整 50 年 。 战 后 ， 首 相 Win- 
ston Churchill (以 典型 的 保密 文件 的 形式 ) 命令 将 这 台 机 器 肢解 成 不 大 于 人 手 的 碎片 ， 同 时 命令 
销毁 所 有 与 Colossus 相关 的 文章 。 规 划 和 图 纸 由 设计 者 焚烧 ,解密 操作 员 在 被 监禁 或 叛国 罪 的 威 
胁 下 宣誓 保守 秘密 。 
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图 1-2 在 第 二 次 世界 大 战 中 使 用 的 十 台 Colossus 计算 机 之 一 〈 来 源 于 Bletchley 
Park Trust， 在 www. bletchleypark. org. uk 上 可 以 找到 ) 


这 台 机 器 被 隐藏 得 很 成 功 。 尽 管 偶 尔 有 一 些 关 于 这 人 台 机 器 的 传闻 ， 但 公众 最 终 是 在 2000 年 
所 剩 无 几 的 几 份 相关 文件 被 解密 时 才 得 知 Colossus 的 存在 。 因 此 ， 在 很 多 计算 机 历史 的 相关 描述 
中 都 没有 提 到 Colossus， 整 整 一 代 计 算 机 设计 师 从 来 没有 听 说 过 它 。 

然而 ， 另 有 一 些 著名 的 与 Colossus 同期 的 机 器 在 之 后 几 年 开始 使 用 。 其 中 最 著名 的 ENIAC 
(Electronic Numerical Integrator And Computer) 在 美国 建造 。 当 Colossus 还 在 被 完全 隐藏 时 ，1944 
年 开始 投入 使 用 的 ENIAC 显然 成 为 世界 上 第 一 台数 字 计 算 设 备 。 许 多 不 知道 Colossus 的 教科 书 
作者 将 ENIAC 作为 第 一 台 现 代 计 算 机 。 事 实 上 ，Colossus 不 仅 投 入 使 用 时 间 超 前 ， 而 且 与 现代 计 
算 机 相似 ， 是 一 台 二 进 制 计算 机 ， 而 ENIAC 是 一 台 十 进 制 计算 机 。 但 Colossus 和 ENIAC 一 样 都 
很 难 编程 ， 需 要 通过 调整 开关 和 变换 连 线 位 置 实现 重新 编程 。 

令 人 惊叹 的 是 ， 出 现在 一 个 世纪 之 前 的 Charles Babbage 的 分 析 引 擎 是 数字 的 而 不 是 模拟 的 ， 
且 完 全 可 编程 ， 比 起 那些 被 称 为 第 一 的 电子 计算 机 在 某 些 方面 更 为 先进 。Babbage 还 设计 了 一 台 
打印 机 外 设 ， 可 以 输出 数字 计算 结果 。Babbage 的 机 器 还 具有 完整 的 程序 设计 语言 ， 能 够 处 理 循 
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环 和 条 件 分 支 ， 这 使 得 Babbage 的 朋友 Lovelace 伯 珊 夫人 Ada Byron (著名 诗人 和 拜 伦 的 女儿 ) 在 
这 台 计 算 机 上 工作 并 写 出 了 世界 上 第 一 个 计算 机 程序 。 这 可 能 是 历史 上 诗歌 创作 和 编程 第 一 次 
也 是 最 后 一 次 走 到 一 起 。 

在 差分 机 和 Colossus 之 间 ， 计 算 机 领域 并 不 完全 是 荒漠 : 德国 人 Konrad Zuse 在 1940 ~ 1941 
年 间 构 建 了 一 台电 力 计算 机 ， 归 类 为 电力 而 不 是 电子 计算 机 的 原因 是 它 基于 继电器 建造 而 成 。 
另 一 个 电子 计算 机 的 早期 尝试 是 1941 年 在 美国 爱 荷 华 州立 大 学 (Iwoa State College) 构建 了 Ata- 
nasoff- Berry 机 器 。 虽 然 这 台 机 器 不 可 编程 且 不 可 靠 ， 但 它 还 是 展示 出 一 些 现 代 计 算 机 的 概念 ， 
并 且 毫 无 疑问 地 推动 了 当时 计算 机 领域 的 发 展 。 

晶体 管 计 算 机 的 起 源 同 样 是 一 个 邻 人 困惑 的 领域 。 美 国 贝尔 实验 室 于 1948 年 发 明了 晶体 管 。 
鉴于 它 功 耗 低 、 尺 才 小 的 特征 ， 很 适合 构建 计算 机 (虽然 早期 晶体 管 的 可 靠 性 低 于 电子 管 = ) 。 
有 一 些 文字 记载 误 将 美国 MIT 建 于 1956 年 的 TX-0 作为 第 一 台 晶 体 管 计算 机 ， 实 际 上 曼彻斯特 大 
学 于 1953 年 投入 运行 的 晶体 管 计算 机 才 应 该 享有 “第 一 ”的 荣誉 。 

最 后 ， 关 于 第 一 台 存 储 程序 计算 机 〈 与 此 对 应 的 是 通过 捅 线 或 开关 编程 ) 依然 存在 记录 不 
清 的 情况 。 应 当 是 曼彻斯特 大 学 构建 的 小 型 试验 机 器 (SSEM ,或 爱 称 “Baby”) ， 它 于 1948 年 
首次 成 功 地 运行 了 所 存储 的 程序 。 

另 一 个 早期 的 存储 程序 计算 机 是 Maurice Wilkes 的 EDSAC (Electronic Delay Storage Automatic 
Calculator) ， 于 1949 年 5 月 在 剑桥 大 学 开始 运行 。 同 样 著名 的 是 美国 陆军 的 EDVAC (Electronic 
Discrete Variable Automatic Computer) ， 它 也 是 二 进 制 存储 程序 计算 机 ， 始 建 于 1944 年 ， 但 直到 
1951 ~ 1952 年 才 开始 运 行 。 

显然 ， 从 上 述 三 个 存在 异议 的 方面 来 看 ， 计 算 机 的 历史 并 不 像 想象 的 那样 一 目 了 然 。 曼 彻 斯 
特大 学 是 一 个 非常 重要 但 是 很 低调 的 角色 ， 被 很 多 计算 机 历史 学 家 忽视 了 。 曼 彻 斯 特大 学 于 
1951 年 还 设计 出 世界 上 第 一 台 商用 计算 机 Ferranti Mark 1， 但 最 终 计算 机 商业 中 心 却 跑 到 了 别 
的 地 方 。 

表 1-1 列 出 了 计算 机 领域 的 世界 第 一 ， 同 时 给 出 了 它们 实际 开始 运行 的 年 代 。 


表 1-1 计算 机 发 展 史 上 重要 的 计算 机 















































年 份 研发 地 点 名 称 首次 产品 
1834 Cambridge 差分 机 可 编程 计算 机 

1943 Bletchley Colossus 电子 计算 机 

1948 Manchester SSEM (Baby) 存储 程序 计算 机 
1951 MIT Whirlwind 1 实时 VO 计算 机 
1953 Manchester 晶体 管 计算 机 晶体 管 计 算 机 

1971 California Intel 4004 大 众 市 场 CPU & IC 
1979 Cambridge Sinclair ZX-79 大 众 市 场 家 用 计算 机 
1981 New York IBM PC 个 人 计算 机 

1987 Cambridge Acom A400 系列 高 街 RISC PC 

1990 New York IBM RS6000 超标 量 RISC 处 理 器 
1998 California Sun picoJAVA 基于 一 种 语言 的 计算 机 





日 ， 在 局 部 真空 中 包含 微小 灯丝 电极 的 玻璃 热 离 子 闹 门 是 大 部 分 早期 计算 机 的 基本 人 逻辑 开关 。 在 北美 称 这 种 阀门 为 
“真空 管 ”或 简单 称 为 “ 管 "。 有 趣 的 是 ， 虽 然 它 们 现在 已 不 再 参与 计算 ， 但 在 很 高 端的 音频 放大 设备 中 却 是 抢 
手 货 。 

名 ”Fenanti Mark 1 之 后 是 LEO 计算 机 (从 EDSAC 派生 而 来 ) ， 从 1951 年 春季 开始 在 其 上 运行 财务 程序 ， 为 遍布 各 
处 的 里 昂 茶 馆 服 务 。 
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该 表 展 示 了 计算 机 技术 发 展 过 程 。 尽 管 人 们 不 清楚 20 世纪 60 年 代 是 怎么 回 事 ， 但 可 以 看 出 
这 是 一 个 进化 过 程 ， 而 不 是 一 个 革命 性 过 程 。 


1.3 计算 机 发 展 阶段 划分 

有 些 时 候 计 算 机 像 人 一 样 按照 “ 代 ” 进 行 描述 。 这 是 一 种 按照 时 间 建 立 的 划分 ， 通常 取决 
于 建造 方法 、 计 算 逻 辑 器 件 ， 以 及 计算 机 用 途 等 要 素 。 

任何 看 过 20 世纪 80 年 代 计算 机 杂志 上 的 广告 的 人 都 会 记得 制造 商 如何 投 资 不 同 代 的 计算 
机 ， 并 且 反 复 为 计算 机 新 产品 做 广告 好像 它们 就 是 第 五 代 计算 机 一 样 。 值 得 庆幸 的 是 ， 这 种 做 
法 逐渐 减弱 ， 计 算 机 世界 走 人 了 一 个 平坦 高 原 。 下 面 ， 我 们 来 了 解 一 下 这 五 代 计算 机 。 


1.3.1 第 一 代 计 算 机 


基于 真空 管 ， 通 常会 占据 整个 房间 。 
MTBF (平均 故障 间隔 时 间 ) 很 短 ， 两 个 故障 之 间 间 隔 只 有 几 分 钟 。 
基于 十 进 制 的 算术 运算 。 
通过 开关 、 电 缆 或 硬 连 线 实现 编程 。 
在 机 器 代码 之 上 没有 程序 设计 语言 。 
。 有 程序 存储 ， 引 入 了 汉 “' 诺 依 曼 体系 结构 。 
最 典型 的 例子 是 ENIAC， 耗 电 100kW 才能 达到 每 秒 500 个 加 法 运算 。 这 人 台 巨 大 机 器 使 用 了 
1800 个 真空 管 ， 重 30 吨 ， 占 地 面积 为 1300 平方 米 。 用 户 界 面 (这 代 计 算 机 的 典型 界面 ) 如 
图 1-3 所 示 。ENIAC 由 美国 陆军 设计 ， 用 于 求解 弹道 方程 以 计算 火炮 射程 表 。 
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图 1-3 ”两 名 女士 正在 操作 ENIAC 的 主 控 制 盘 (图 片 由 美国 陆军 提供 ) 


Colossus 计算 机 同样 巨大 ， 早 期 用 于 解码 : 破解 强大 而 秘密 的 Enigma 编码 ， 为 第 二 次 世界 大 
战 中 盟 军 胜利 做 出 了 贡献 。 然 而 ， 令 人 伤心 的 是 ， 解 码 出 的 第 一 条 德军 信息 是 “我 们 正 准 备 又 
炸 Coventry”。 为 了 不 让 敌人 知道 信息 已 经 被 破解 ， 政 府 决定 不 通知 居民 ， 致 使 很 多 居民 在 这 次 
又 炸 中 死亡 或 受伤 。 
1.3.2 第 二 代 计 算 机 


。 基于 晶体 管 ， 但 还 是 很 重 、 很 大 。 


小 
好 
= 
到 
a 


。 较 好 的 可 靠 性 。 

。 采用 二 进 制 逻辑 。 

。 用 穿孔 卡片 或 纸 带 进行 程序 输入 。 

。 支持 早期 的 高 级 程序 设计 语言 。 

。 基于 总 线 的 系统 架构 。 

当时 的 CDC6000 被 誉 为 智能 外 围 设备 。 另 一 个 更 加 为 人 所 知 的 是 有 4K 字 的 RAM、 运 行 束 
率 为 0.2MHz 的 PDP-1。 这 台 伟大 机 器 使 得 现今 已 经 倒闭 的 数字 设备 公司 (DEC) 在 当时 胜出 。 
PDP-1 标价 10 万 美元 左右 ， 且 有 令 人 印象 深刻 的 一 组 外 设 ， 包 括 光 笔 、EYEBALL 数字 照相 机 、 
四 声 道 音 频 输出 、 电 话 接口 、 磁 盘存 储 设备 、 打 印 机 、 键 盘 接口 和 控制 台 显 示 设 备 。PDP-1 以 及 
外 设 差不多 占据 了 整个 房间 ， 如 图 1-4 所 示 。 





图 1-4 PDP-1 (由 Lawrence Livermore 国家 实验 室 拍摄 ， 来 源 于 www. computer-history. info ) 


1.3.3 第 三 代 计 算 机 


。 采用 集成 电路 。 

。 很 好 的 可 靠 性 。 

。 可 以 进行 仿真 〈 微 程序 ) 。 

。 多 道 程序 设计 ， 多 任务 ,分 时 。 L7 

。 普遍 使 用 高 级 程序 设计 语言 ， 在 用 户 界面 设计 方面 进行 了 一 些 尝试 。 

。 使 用 虚拟 存储 和 操作 系统 。 

最 为 人 所 知 且 功 能 强大 的 IBM System/360 包括 512KB 的 8 位 存储 器 ， 运 行 主 频 为 4MHz。 这 
是 一 个 基于 寄存 器 的 计算 机 ， 具 有 流水 线 中 央 处 理 单元 (CPU) 体系 结构 和 存储 器 读 写 机 制 ， 该 
设计 方案 为 当今 程序 员 所 熟知 。IBM 在 基本 机 器 架构 基础 上 针对 不 同 的 用 户 要 求 进行 了 相应 设 
计 ， 且 通过 微 码 仿真 方法 实现 其 他 指令 集合 ， 从 而 保证 为 第 二 代 计 算 机 用 户 (那些 已 经 在 他 们 
的 机 器 上 投入 巨额 资金 的 用 户 ) 提供 向 后 兼容 性 。 经 过 修改 和 小 型 化 的 五 台 计 算 机 在 NASA 空间 
站 中 完成 数值 计算 。 

虽然 没有 占据 一 个 房间 ， 基 本 S/360 机 器 仍然 是 一 台 很 大 的 设备 ， 如 图 1-5 所 示 。 
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图 1-5 IBM System/360 (由 Ben Franske 拍摄 ， 来 源 于 Wikipedia IBM System/360 页 面 ) 
1.3.4 第 四 代 计 算 机 


。 采用 超大 规模 ( VLSI) 集成 电路 。 

。 高 可 靠 性 和 高 性 能 。 

。 可 以 将 整个 CPU 集成 到 一 块 芯 片上 。 

。 DOS、CP/M 及 更 先进 的 操作 系统 。 

。 这 就 是 今天 的 计算 机 。 

例子 非常 之 多 ,包括 所 有 人 台式 计算 机 和 笔记 本 计算 机 。 图 1-6 给 出 了 Acom 公司 的 Phoebe 系 

[3 ] 统 ， 它 集成 了 创新 性 的 RISC 体系 结构 和 先进 的 视窗 操作 系统 。 遗 憾 的 是 ， 该 公司 没有 生存 足够 
长 时 间 来 市 场 化 该 机 器 一 一 原因 可 能 在 于 该 机 器 是 明黄 颜色 。 相 反 ，Apple 公司 在 市 场 营销 上 表 


现 得 更 聪明 ， 初 始 投放 市 场 的 333MHz 的 iMac 有 5 种 可 选 颜色 ， 尽 管 最 近 变 成 了 全 白 、 全 黑 和 锅 
合金 色 。 图 1-7 给 出 了 一 些 iMace 的 新 产品 。 






































图 1-6 Acom Phoebe (图 片 来 源 于 Acom 计算 机 公司 的 公开 材料 ， 
1998 ,http:/acom. chriswhy. co. uk/ AcomPics/ phoeb2. html) 
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图 1-7 Apple iMac 系列 产品 : 运行 在 可 靠 的 基于 UNIX 操作 系统 上 的 
时 尚且 用 户 友好 的 机 器 (图片 来 源 于 Apple 公司 ) 


1. 3.5 第 五 代 计 算 机 


。 自然 的 人 机 交互 。 

。 非常 高 级 的 程序 设计 语言 一 甚至 可 以 用 英语 编程。 

。 对 用 户 表现 出 智能 。 

在 撰写 本 书 的 时 候 还 没有 合适 的 例子 。 一 旦 有 了 这 样 的 例子 ， 很 可 能 也 没有 什么 值得 拍照 
的 ， 它 们 可 能 是 成 后 上 万 的 能 入 式 计算 机 ， 分 布 在 我 们 周围 ， 不 以 米色 或 黄色 的 盒子 形式 出 现 。 

也 许 不 真是 什么 第 五 代 ， 但 拥有 良好 配置 和 工艺 的 Apple iMace 计算 机 〈 见 图 1-7) 也 许 能 够 
预示 未 来 ， 即 拥有 时 尚 外 观 且 以 用 户 为 中 心 的 计算 机 。 或 者 ， 也 许 Apple 的 包括 8 个 独立 ARM 
处 理 器 核 的 小 型 化 产品 iPhone (如 图 1-9 所 示 ) 及 其 令 人 印象 深刻 的 iPad 预示 了 第 五 代 计算 机 ? 


1.4 云 、 普 适 、 网 格 和 超 并 行 计算 机 

思考 一 下 计算 机 发 展 历史 。 最 开始 计算 机 是 占据 整个 房间 的 机 器 ， 无 论 是 机 械 部 分 还 是 电 
子 部 分 都 需要 专门 的 人 来 维护 。 技 术 的 不 断 进 步 使 得 较 小 的 晶体 管 取 代 了 基于 真空 管 的 硬件 。 
像 房 间 大 小 的 计算 机 开始 乏 步 缩小 。 后 来 发 明了 集成 电路 ， 最 初 集成 电路 可 以 承载 几 百 个 晶体 
管 ， 之 后 是 几 千 个 ， 后 来 更 多 。Rockwell 6502 处 理 器 产生 于 1975 年 ， 在 一 个 40 管 脚 的 双 列 直播 
式 封 装 (DIP) 芯片 上 集成 了 大 约 4000 个 晶体 管 。 到 2008 年 ，Intel 可 以 在 单个 芯片 上 集成 20 亿 
个 晶体 管 。 

计算 机 从 房间 大 小 缩小 到 几 台 冰箱 大 小 ， 然 后 缩小 到 一 台 冰 箱 大 小 ， 进 而 缩小 到 桌面 上 的 
盒子 ， 即 个 人 计算 机 (PC) 时 代 。PC 又 变 得 更 小 。20 世纪 80 年 代 早 期 出 现 了 可 以 随身 携带 的 
计算 机 ， 然 后 是 便携 式 计算 机 、 膝 上 计算 机 、 笔 记 本 计算 机 和 掌上 计算 机 。 今天， 你 可 以 买 到 一 
个 用 于 医疗 诊断 的 药片 ， 其 中 不 仅 包 括 完整 的 戏 人 式 计 算 机 ， 还 包括 传感器 和 CMOS 照相 机 。 

那么 计算 机 发 展 史 是 一 个 单 向 小 型 化 的 故事 吗 ? 回答 是 否定 的 ， 因 为 计算 机 在 某 种 意义 上 
又 变 得 越 来 越 大 。 像 因特网 所 表现 的 网 络 化 趋势 使 得 计算 机 更 容易 相互 链接 ， 同 时 还 将 支持 计 
算 机 之 间 的 资源 共享 。 过 去 单机 完成 的 工作 今天 可 以 由 多 个 并 行 计 算 单 元 或 计算 机 集群 并 行 完 
成 ,甚至 可 以 由 地 理 位 置 各 异 的 计算 机 共同 完成 9. 3 节 将 详细 讨论 大 规模 并 行 计 算 问题 ) 。 

因此 ， 假 设 我 们 需要 完成 的 任务 可 以 在 单个 小 盒子 上 执行 ， 也 可 以 由 分 布 在 我 们 周围 的 几 
台 计 算 机 (包括 戏 人 式 的 ) 共同 完成 ， 那 么 问题 就 变 成 我 们 应 如 何 定义 “计算 机 ” 是 这 个 
盒子 自身 ， 还 是 某 个 可 以 执行 该 任务 的 “东西 ”? 

50 年 前 很 容易 定义 什么 是 “计算 机 ”， 因 为 计算 机 是 在 计算 机 机 房 中 。 今 天 ， 在 我 们 桌 上 的 
单个 盒子 中 就 有 可 能 包含 两 个 或 更 多 CPU， 而 每 个 CPU 又 可 能 包含 几 个 计算 核 ， 而 我 还 是 称 这 





中 


个 盒子 是 一 台 “ 计 算 机 ”。 当 我 进行 一 个 Web 搜索 时 ， 搜 索 请 求 会 被 送 到 某 搜索 门户 ， 在 那里 包 

L10] 括 10 000 多 个 计算 单元 (每 一 个 类 似 于 一 台 PC) 的 “服务 器 场 ”(server farm) 将 处 理 该 搜索 请 
求 。 当 一 个 服务 器 场 协同 完成 处 理 时 ， 称 之 为 一 台 超 级 计算 机 ， 即 还 是 一 台 计 算 机 。 

因此 ， 计 算 机 又 变 大 了 ， 由 许多 较 小 的 单个 计算 单元 组 成 。 一 个 许多 计算 机 组 合 起 来 协同 工 

作 的 突出 例子 是 巴塞 罗 那 的 超级 计算 机 ， 即 MareNostrum ， 安 装 在 巴塞 罗 那 Tore Girona 教堂 ， 如 

图 1-8 所 示 。 





1.5 未 来 





1.8 由 位 于 Tore Girona 教堂 中 的 巴塞 罗 那 超级 计算 机 中 心 开 发 的 MareNos- 


trum 设施 (图 片 由 巴塞 罗 那 超级 计算 机 中 心 提供 ，www. bsc. es) 


小 型 化 过 程 还 将 继续 。 越 来 越 多 的 产品 、 器 件 和 系统 包含 嵌入 式 计算 机 ， 而 且 没 有 任何 征兆 
显示 这 种 趋势 会 消亡 。 计 算 机 速度 会 继续 增加 。 最 终 ， 存 在 一 个 很 美妙 的 历史 轨迹 ， 请 看 表 1-2 


中 的 数字 ， 它 显示 出 计算 机 如 何 从 最 早期 开始 在 计算 速度 上 不 断 进步 


机 的 定义 已 经 改变 了 若干 次 。 


表 1-2 ”从 始 至 终 ， 计 算 机 在 计算 速度 上 那 令 人 惊叹 的 进步 
(该 数据 由 美国 田纳西 大 学 的 Jack Dongarra 教授 免费 提供 ) 





年 份 





每 秒 浮 点 运算 次 数 (FLOPS) 





当然 也 要 记 住 ， 计 算 


每 秒 浮 点 运算 次 数 (FLOPS ) 





1941 


1987 


1 000 000 000 (1 GigaFLOPS, GFLOPS) 





1945 


100 


1992 


10 000 000 000 





1949 


1000 (1 KiloFLOPS, kFLOPS) 


1993 


100 000 000 000 





1951 


10 000 


1997 


1 000 000 000 000 (1 TeraFLOPS, TFLOPS) 








1961 100 000 2000 10 000 000 000 000 
1964 1 000 000 (1 MegaFLOPS, MFLOPS) 2007 478 000 000 000 000 (478 TFLOPS) 
1968 10 000 000 2009 1 100 000 000 000 000 (1. 1 PetaFLOPS) 








1975 


100 000 000 





再 来 考察 一 下 该 进步 的 幅度 。 我 们 可 以 看 到 一 种 难以 置信 的 、 持 续 的 性 能 改进 。 根 据 这 些 历 
史 数 据 ， 我 们 也 许可 以 放心 地 把 小 型 化 和 性 能 改进 过 程 完全 丢 给 像 ARM 、Intel 和 AMD 这 样 的 大 
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能 吗 ? 尽管 存在 小 型 化 趋势 ， 我 们 同时 也 看 到 (超级 ) 计算 机 在 不 断 变 大 且 更 加 耗 电 。 并 
行 计算 已 经 成 为 建造 世界 上 最 快 的 计算 机 时 采用 的 主流 技术 。 大 型 机 时 代 也 许 又 会 回来 。 所 不 
同 的 是 大 型 机 可 以 坐落 在 其 他 国家 ， 用 户 可 以 通过 因特网 和 无 线 网 络 访问 到 这 台大 型 机 。 大 型 
机 也 许 会 安装 在 寒冷 的 国家 ， 其 散发 出 的 热量 可 以 用 来 温暖 附近 的 房屋 。 

由 于 将 计算 机 和 实际 使 用 计算 能 力 的 地 方 分 离开 的 技术 已 经 存在 且 日 益 成 熟 但 对 无 线 通 信 
连接 而 言 可 能 存在 例外 ， 因 此 这 一 改进 过 程 中 的 关键 因素 变 成 了 服务 和 软件 。 

然而 ， 这 并 不 意味 着 现在 要 放弃 对 计算 机 及 其 体系 结构 的 改进 ( 那 意 味 着 你 可 以 不 继续 往 
下 读 了 ) ， 但 这 确实 意味 着 重点 可 能 发 生变 化 ， 即 从 大 的 、 强 的 转向 小 的 、 低 功 耗 的 ， 从 大 规模 
的 数值 计算 转向 嵌入 式 和 专用 计算 。 

回 到 本 书 的 教育 且 的 ， 在 计算 机 系统 上 工作 的 
工程 师 一 直 被 问 到 这 样 的 问题 : “在 我 的 系统 中 应 
该 使 用 什么 处 理 器 ?”“ 在 我 的 系统 中 如 何 才能 使 
处 理 器 正确 工作 ?” 本 书 将 提供 回答 这 两 类 问题 所 
需 的 背景 知识 。 另 外 ， 这 些 知识 还 可 以 用 来 回答 新 
的 问题 ， 例 如 : “我 是 否 应 当 专 门 为 我 的 系统 开发 
一 个 新 的 处 理 器 ， 如 果 需 要 ， 如 何 做 到 ?” 或 “我 
是 否 应 使 用 简单 CPU 且 连 接 到 远程 服务 器 ， 或 在 
内 部 完成 全 部 处 理 ?” 

尽管 存在 许多 像 MareNostrum 这 样 的 超级 计算 
机 ,但 当今 计算 基本 上 可 归 入 赔 和 人 式 工程 领域 ， 即 
做 人 式 器 件 和 消费 电子 器 件 中 的 普 适 计算 技术 。 考 
察 一 下 图 1-9 所 示 的 iPhone， 它 包含 9 个 分 离 的 微 
处 理 器 ， 其 中 8 个 是 基于 ARM 的 。 因 此 ， 对 于 未 
来 是 怎样 的 这 一 问题 的 答案 是 ， 我 们 可 以 预测 两 种 
趋势 : 一 种 是 更 少 但 更 大 的 大 型 计算 机 集群 ， 另 一 
种 是 更 多 但 更 小 的 个 人 化 计算 器 件 。 

这 也 许 能 够 使 你 意识 到 要 学 习 一 些 普 遍 存在 的 

















ARM 计算 机 技术 。 图 1-9 Apple 的 iPhone， 包括 8 个 分 离 的 ARM 
处 理 器 ， 带 有 完整 的 触摸 屏 (图 片 来 源 
1.6 小 结 于 Apple 公司 ) 


你 可 能 不 会 去 建造 世界 上 最 快 的 超级 计算 机 〈 也 许 你 会 ， 谁 知道 呢 ?) ， 但 你 很 有 可 能 会 去 
设计 嵌入 式 系统 或 进行 嵌 人 式 程 序 设计 。 

本 章 介绍 了 计算 技术 发 展 历史 : 不 断 向 前 进步 ， 在 技术 和 理解 上 有 许多 大 的 飞 牙 ， 但 也 存在 
成 百 万 的 小 步伐 改进 。Isaac Newton 在 给 他 的 竞争 对 手 Robert Hooke 的 一 封 信 中 写 道 :“ 如 果 我 能 
够 看 得 更 远 ， 是 因为 我 站 在 了 巨人 的 肩膀 上 。 

对 于 大 多 数 计算 机 设计 者 来 说 这 是 完全 正确 的 。 你 站 在 巨人 肩膀 上 的 最 好 的 办 法 是 利用 现 
有 的 计算 机 设计 下 一 代 计 算 机 。 

基于 这 样 的 历史 观察 和 在 这 个 领域 继续 前 行 的 信心 ， 现 在 应 当做 的 是 从 过 去 几 十 年 的 计算 
机 系统 设计 者 那里 学 习 技 术 。 下 面 的 章节 将 进行 这 个 过 程 ， 首 先 不 考虑 计算 机 性 能 提升 问题 ， 而 
是 学 习 无 论 是 台式 机 还 是 做 人 式 都 需要 的 基本 的 基础 技术 。 然 后 ， 我 们 花 一 些 时 间 进 一 步 了 解 
嵌 人 式 系统 ， 并 学 习 构 建 我 们 自己 的 嵌入 式 CU。 最后， 我 们 进一步 考察 一 下 计算 机 世界 中 未 来 
极 富 潜力 的 技术 。 
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本 章 介绍 一 些 背景 知识 ， 用 来 解读 现代 中 央 处 理 单元 (CPU) 的 设计 。 本 章 我 们 将 关注 计算 
机 组 成 与 分 类 的 形式 化 方法 ; 定义 大 量 的 描述 计算 机 系统 的 术语 ;讨论 计算 机 算法 以 及 数据 表 
示 ; 了 解 几 个 组 成 结构 的 模块 ， 这 些 模 块 在 后 面 分 析 计 算 机 系统 时 会 再 次 过 到 。 


2. 1 计算 机 组 成 


计算 机 是 由 什么 组 成 的 ? 这 些 组 成 元 素 之 间 是 如 何 连接 的 ? 为 了 回答 这 些 问题 ， 我 们 首先 应 认 
识 到 计算 机 的 结构 内 部 存在 各 种 各 样 的 可 能 性 。 比 如 今天 的 台式 计算 机 ， 许 多 原来 连接 在 CPU 周围 
的 外 设 模块 现在 都 封装 在 一 个 集成 电路 芯片 之 内 ， 这 并 不 是 先驱 者 们 所 认定 的 计算 机 。 然 而 ， 一 直 
以 来 计算 机 中 的 大 部 分 模块 都 仍然 存在 ， 即 使 它们 不 是 立即 就 能 被 识别 出 来 。 在 嵌入 式 系统 中 这 个 趋 
势 更 为 明显 : 将 几乎 所 有 必需 的 功能 都 集成 在 一 个 芯片 上 的 片上 系统 (SoC) 现在 已 占据 主导 地 位 。 

其 次 ， 并 非 所 有 的 计算 机 都 以 同样 的 方式 构成 ,或 有 同样 的 需求 。 它 们 的 尺寸 范围 从 一 个 房 
间 大 小 的 超级 计算 机 到 类 似 于 手表 的 个 人 数字 助理 (PDA) 或 更 小 。 

尽管 可 能 性 各 种 各 样 ， 但 大 多 数 系统 都 包含 功能 相似 的 模块 。 这 些 模 块 在 布局 上 是 放 在 CPU 
芯片 的 内 部 还 是 外 部 ， 到 决 于 设计 和 成 本 方面 的 考虑 ， 它 们 之 间 的 互 连 (包括 内 部 的 和 外 部 的 ) 
通常 是 并 行 总 线 ， 总 线 的 宽度 和 速度 也 取决 于 设计 或 成 本 的 考虑 。 

现在 的 设计 中 ， 每 个 功能 模块 可 能 都 有 多 个 副本 或 者 模块 间 有 多 个 互 连 总 线 。 

正 是 有 这 些 差异 ， 需 要 按照 某 种 方式 定义 不 同 的 体系 结构 。 最 早 是 在 1966 年 ，Michael Flynn 
首先 提出 了 一 种 描述 计算 机 系统 的 分 类 方法 。 


2. 1.1 Flynn 分 类 法 


现在 广泛 使 用 的 Flynn 分 类 法 ， 是 基于 指令 流 和 数据 流 的 数量 对 计算 机 进行 分 类 的 方法 。 

一 系列 修改 那些 流 经 数据 处 理 单元 的 数据 (数据 流 ) 的 命令 ， 可 以 被 认为 是 一 个 指令 流 。 
图 2-1 显示 了 四 种 不 同情 况 ， 包括 : 

。 单 指令 流 单数 据 流 (SISD) 一 一 传统 的 计算 机 包含 单个 CPU ， 它 从 存储 在 内 存 中 的 程序 
那里 获得 指令 ， 并 作用 于 单一 的 数据 流 〈 本 例 中 就 是 一 个 指令 处 理 一 条 数据 ) 。 
单 指 令 流 多 数据 流 (SIMD ) 单个 的 指令 流 作用 于 多 于 一 个 的 数据 流 上 。 例 如 有 数字 
4、5 和 3、2， 一 个 单 指令 执行 两 个 独立 的 加 法 运算 : 4+5 和 3 +2， 就 被 称 为 单 指令 流 
多 数据 流 。SIMD 的 一 个 例子 就 是 一 个 数组 或 向 量 处 理 系 统 ， 它 可 以 对 不 同 的 数据 并 行 执 








行 相同 的 操作 。 
。 多 指令 流 单数 据 流 (MISD) 一 一 用 多 个 指令 作用 于 单个 数据 流 的 情况 实际 上 很 少见 。 这 
种 元 余 多 用 于 容错 系统 。 


。 多 指令 流 多 数据 流 (MIMD) 一 一 这 种 系统 类 似 于 多 个 SISD 系统 。 实 际 上 ，MIMD 系统 
的 一 个 常见 的 例子 是 多 处 理 器 计算 机 ， 如 Sun 的 企业 级 服务 器 。 
虽然 Flynn 设计 此 分 类 法 的 初衷 是 描述 处 理 器 级 的 布局 ， 但 它 也 同样 可 以 适用 于 处 理 器 内 部 
的 单元 模块 。 例 如 ，Intel Pentium 处 理 器 上 的 多 媒体 扩展 (MMX) 和 以 后 的 单 指令 多 数据 流 扩展 
(SSE) ， 都 是 一 个 SIMD 的 例子 。 它 允许 发 出 一 个 单一 的 指令 ， 去 操作 多 个 数据 项 (如 8 对 数据 
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同时 执行 不 同 的 加 法 ) 。 我 们 将 在 后 面 的 4.7 节 一 起 介绍 MMX 人 SSE。 
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cr Nswuction Di 
图 2-1 Flynn 分 类 法 中 SISD、SIMD、MISD 和 MIMD 处 理 示 例 。 这 4 个 分 类 显示 了 在 某 


个 时 间 点 上 执行 的 指令 和 数据 之 间 的 关系 (因为 这 个 分 类 是 按照 指令 流 和 数据 
流 的 共同 特征 进行 划分 的 ) 

































































2. 1.2 连接 方式 


另 一 种 对 处 理 器 体系 结构 的 常见 描述 是 基于 对 程序 指令 和 数据 是 共同 处 理 还 是 单独 处 理 。 

。 冯 . 诺 依 曼 体系 结构 的 系统 共享 数据 和 指令 的 存储 以 及 传输 资源 。 许 多 现代 计算 机 都 属于 
这 一 类 ， 它 们 在 共享 内 存 中 存储 的 程序 和 数据 ， 并 使 用 单一 的 总 线 将 程序 和 数据 从 内 存 传 
输 到 CPU。 共 享 总 线 带宽 往往 意味 着 系统 性 能 受 限 ， 但 其 优点 是 设计 简单 、 成 本 低廉。 

。 哈佛 体系 结构 的 系统 对 数据 和 指令 有 单独 的 存储 和 传输 。 由 于 指令 和 数据 可 同时 传输 ， 
这 种 系统 能 够 提供 高 性 能 。 

。 其 他 的 体系 结构 包括 带 有 多 个 专用 总 线 的 系统 (如 ADSP2181 内 部 总 线 ) ， 地 址 总 线 共 享 数据 / 
指令 而 数据 总 线 是 独立 的 或 类 似 的 结构 。 第 4 章 还 将 进一步 介绍 并 详细 阐述 内 部 总 线 结构 。 

一 些 CPU 虽然 通过 一 个 单一 的 总 线 共 享 内 存 接口 ， 却 宣称 是 哈佛 体系 结构 处 理 器 ， 如 DEC 





或 mtel 的 StrongARM 处 理 器 。 在 这 里 ，StrongARM 处 理 器 内 部 是 哈佛 体系 结构 ， 因 为 它 包含 了 独 
立 的 内 部 数据 和 指令 高 速 缓存 模块 ， 但 它 的 外 部 是 冯 “' 诺 依 曼 连接 方式 。 


2. 1.3 计算 机 结构 层次 视图 

有 时 可 以 把 计算 机 系统 看 做 是 相互 联系 的 多 个 层次 。 图 2-2 描述 了 层 与 层 之 间 的 连接 操作 ， 
也 可 以 看 做 是 层次 化 的 操作 。 

从 下 往 上 ， 任 何 CPU 都 可 以 被 看 做 是 执行 逻辑 运算 的 门 集合 。 这 些 逻 辑 运算 是 通过 微 程序 
或 状态 机 的 控制 来 完成 所 需 功能 的 ， 微 操作 序列 是 由 指令 集中 的 一 条 或 多 条 指令 指定 。 指 令 可 
以 直接 来 自用 户 程序 ， 或 预定 义 的 基本 输入 /输出 系统 (BIOS) ,或 操作 系统 。 
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层次 计算 机 结构 操作 


通过 编译 器 翻译 


通过 汇编 器 翻译 


BIOS 调 用 、OS API、 软 件 中 断 


hi 


处 理 器 指令 集 


硬件 译 码 和 解释 
1 处 理 器 微 体系 结构 
硬件 电路 执行 


0 - 值 逻 镜 





图 2-2 计算 机 组 织 与 结构 层次 视图 


有 趣 的 是 ， 这 个 层次 模型 很 像 用 于 计算 机 软 硬 件 的 开放 系统 互 连 (OSI) 模型 (0SI 模型 在 
附录 B 中 有 介绍 ) 。 


2.2 计算 机 基本 原理 


本 书 所 描述 的 计算 机 系统 ， 如 2. 1.1 节 中 讨论 的 SISD 计算 机 ， 通 常 包 括 一 些 由 总 线 连接 起 
[18] 来 的 功能 单元 。 本 章 将 简要 介绍 这 些 单元 ， 在 后 续 的 章节 中 再 详细 论述 。 

e 中 央 处 理 单元 (CPU) 通过 对 指令 的 解释 以 及 内 置 的 行为 来 控制 计算 机 的 部 件 。 它 
可 以 处 理 输入 /输出 功能 ， 完 成 算术 和 你 辑 运 算 (也 可 以 说 包含 一 个 ALU) 。 最 近 ，CPU 
已 用 来 指 代 一 个 物理 的 集成 电路 芯片 ， 在 有 些 产品 中 ， 它 包含 了 作为 一 台独 立 计算 机 所 
必需 的 所 有 部 件 。 

。 算术 逻辑 单元 (ALU) 一 一 CPU 中 的 这 个 部 件 完成 加 、 减 、 与 、 或 等 简单 的 算术 逻辑 运 
算 。 它 是 一 个 异步 单元 ， 从 并 行 连 接 的 寄存 器 或 总 线 输 入 两 个 数据 ， 输 出 直接 连接 到 寄 
存 器 或 者 是 通过 三 态 缓冲 器 连接 到 总 线 。 此 外 ， 它 有 一 个 控制 输入 用 来 选择 执行 哪个 运 
算 ， 以 及 一 个 状态 寄存 器 接口 。 在 现代 处 理 器 的 芯片 内 部 ， 它 仅 被 用 来 处 理 定点 二 进 制 
(偶尔 是 BCD 码 ) 数值 。 

e 浮 点 运算 单元 (FPU) 或 者 在 片上 , 或 者 作为 外 部 协 处 理 嚣 ， 负 责 浮 点 的 算术 运算 。 
大 多 数 现代 FPU 支持 的 浮 点 格式 是 IEEE754 标准 。 它 相对 较 慢 (可 能 需要 数 十 或 数 百 个 
指令 周期 来 完成 一 个 计算 ) ， 通 过 专用 浮 点 寄存 器 连接 到 主 CPU。 

。 内 存 管理 单元 (MMU) 该 单元 在 处 理 器 寻 址 空间 和 真正 的 物理 存储 之 间 提 供 了 一 个 
抽象 屋 ， 这 种 抽象 被 称 为 虚拟 内 存 。MMU 把 处 理 器 需要 访问 的 虚拟 地 址 转换 为 一 个 真正 
的 内 存 中 的 物理 地 址 。 处 理 器 通常 看 到 的 是 大 片 连续 的 内 存 地 址 空间 ， 这 是 因为 MMU 
屏 项 了 物理 存储 的 组 织 ， 真 正 的 物理 存储 空间 可 能 是 由 不 同 尺寸 (更 大 或 更 小 ) 、 不 连 
续 的 部 分 RAM 和 部 分 的 硬盘 构成 。 

另外 ， 我 们 还 需要 讨论 一 些 概 念 ， 在 后 面 详细 介绍 这 些 概念 之 前 先 在 这 里 进行 定义 : 

。 寄存 器 一 一 直接 连接 到 CPU 内 部 总 线 的 片上 ?存储 单元 , 访问 速度 非常 快 (通常 是 一 个 














日 原本 这 些 都 是 独立 的 硬件 ,但 现在 出 于 访问 的 便利 性 和 速度 的 考虑 都 集成 到 了 一 个 芯片 上 。 
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指令 周期 ) 。 它 容易 和 某 些 CPU 的 片上 内 存 或 picoJava 开 处理 器 中 的 堆栈 混淆 。 
。 三 态 缓冲 器 一 一 用 于 驱动 总 线 的 使 能 设备 ， 通 常 位 于 寄存 器 和 总 线 之 间 ， 由 寄存 器 控制 
何 时 驱动 总 线 。 三 态 中 的 两 种 状态 是 驱动 总 线 电 不 为 逻辑 高 或 逻辑 低 ; 第 三 种 状态 为 高 
阻 态 ， 这 意味 着 该 设备 不 驱动 总 线 。 
。 复杂 指令 集 计 算 机 〈CISC) 一 一 将 能 想到 的 所 有 有 用 的 操作 都 放 到 CPU 硬件 中 ， 不 必 担 
心 有 多 大 、 多 耗 电 或 使 CPU 变 慢 ， 那么 最 终 得 到 的 就 是 一 个 CISC 机 器 。 早 期 的 VAX 机 
器 ， 据 说 包含 超过 2000 个 时 钟 周 期 的 指令 。 
。 精简 指令 集 计算 机 (RISC) 一 一 CPU 的 性 能 受 其 内 部 最 慢 组 件 的 限制 以 及 芯片 面积 的 限 
制 。 基 于 80% 的 指令 只 使 用 了 20% 的 执行 时 间 而 剩 下 的 20% 的 指令 却 占 用 了 80% 的 芯 
片面 积 这 样 一 个 前 提 ，CPU 被 精简 到 只 包含 这 80% 最 有 用 的 指令 。 有 了 时， 一 个 RISC 的 
定义 是 指 “ 支 持 一 个 小 于 100 条 的 指令 集 ”。 一 个 值得 注意 的 新 兴 趋 势 是 用 一 个 RISC 
CPU 核 去 模拟 CISC 机 。 
。 指令 周期 一 一 指 一 条 指令 被 取 指 、 译 码 、 执 行 到 返回 结果 的 时 间 ， 可 能 是 一 个 或 多 个 主 
时 钟 周期 (由 外 部 晶振 产生 的 )。 对 RISC 处 理 器 ， 指 令 通常 都 是 在 单个 时 钟 周 期 内 执行 
完 ; 对 CISC 处 理 器 ， 有 些 指令 会 需要 很 长 时 间 。 
。 大 小 尾 端 一 一 大 尾 端 (big endian) 指 高 字 节 放 在 前 面 ， 常 被 用 在 像 68000 或 SPARC 这 些 
处 理 器 中 。 小 尾 端 (little endian) 指 低 字 节 放 在 前 面 ， 用 于 Intel x86 系列 中 。 某 些 处 理 
器 (如 ARM7) 允许 进行 大 、 小 尾 端的 切换 。 
不 幸 的 是 ,在 现代 计算 机 中 ， 内 存 的 各 种 宽度 使 尾 端 问题 变 得 复杂 。 如 果 所 有 的 内 存 都 是 字 
节 宽 度 那 就 简单 了 ， 但 现在 增加 了 难度 。 给 定 一 个 未 知 的 系统 ， 可 能 会 比较 容易 先 判 断 是 否 是 小 
尾 端 ， 如 果 不 是 ， 再 归 类 为 大 尾 端 。 在 框 2.1、 框 2.2、 杠 2.3 和 框 2.4 中 详细 讨论 了 这 个 问题 。 
尾 端 实例 1 
问 : 将 一 个 32 位 宽 的 字 存 储 在 一 个 16 位 体系 结构 的 存储 系统 中 ， 下 图 所 示 为 存储 字 最 低 有 效 字 节 
(LSB) 、 第 二 字 节 (Bl1)、 第 三 字 节 (B2) 和 最 高 有 效 字 节 (MSB)， 这 是 小 尾 端 还 是 大 尾 端 ? 








| 
| 








图 中 ， 内 存 的 行 号 (16 位 字 》 在 左边 ， 位 的 位 置 标 在 下 面 。 

答 : 首先 检查 是 不 是 小 尾 端 ， 我 们 确定 最 低 字 节 的 内 存 地 址 然后 向 上 计数 。 本 例 中 ， 最低 字 节 的 地 址 
行 号 为 0， 最 低位 也 是 从 第 0 位 开始 。 内 存 中 的 下 一 个 字 节 开始 于 第 8 位 ， 仍 然 是 在 第 0 行 。 其 次 是 1 行 0 
位 ， 最 后 是 第 1 行 的 第 8 位 。 从 最 低 字 节 的 地 址 的 内 容 开始 向 上 数 ， 可 以 得 到 {LSB、B1、B2、MSB} 。 由 
于 这 个 顺序 遵循 从 最 低 字 节 到 最 高 字 节 的 格式 ， 因 此 它 一 定 是 小 尾 端 。 

尾 端 实例 2 

问 : 一 个 32 位 的 字 存 储 如 下 。 这 表示 的 是 小 尾 端 还 是 大 尾 端 ? 

2 | I 
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答 : 首先 ， 确定 最 低 字 节 的 内 存 地 址 。 这 显然 是 从 地 址 第 0 行 第 0 位 开始 ， 其 次 是 第 0 行 第 8 位 ， 依 
次 下 去 。 从 最 低 字 节 到 最 高 字 节 依 次 写 出 内 容 ， 我 们 得 到 序列 {MSB，B2，B1，LSB| 。 这 个 顺序 不 遵循 由 
最 低 字 节 到 最 高 字 节 的 格式 ， 它 不 是 小 尾 端 。 因 此 ， 它 一 定 是 大 尾 端 。 

了 二 尾 端 实例 3 

间 : 给 定 内 存 映射 如 下 图 所 示 ， 在 图 中 填 入 以 小 必 端 格式 表示 的 一 个 32 位 数字 的 MSB、B1、B2 和 

LSB 字 节 。 

















答 : 小 尾 端 通常 都 比较 容易 : LSB 是 在 最 低 字 节 地 址 ， 然 后 顺 着 内 存 向 上 数 到 MSB。 首 先 ， 需要 确定 
内 存 中 最 低 字 节 地 址 的 位 置 。 本 例 中， 位 号 标注 在 表格 的 下 方 一 一 它们 从 左 这 开始 向 右 递 增 ， 因 此 最 低 字 
节 的 地 址 是 指 第 20 行 第 0 位， 下 一 字 节 是 第 20 行 第 8 位 ， 依 次 向 上 。 最 终 的 结果 应 该 是 : 























16 33 31 


注意 : 再 关注 一 下 这 个 地 址 。 它 的 位 置 是 不 连续 的 ， 行 号 不 是 一 个 一 个 增加 的 〔 像 其 他 的 例子 那样 ) ， 
这 些 地 址 是 4 字 节 递增 的 。 这 表明 内 存 是 按 字 节 编 址 ， 而 不 是 按 字 编 址 。 这 是 典型 的 ARM 处 理 器 ， 内 存 按 
字 节 独立 编 直 ， 尽 管 拥有 32 位 宽 的 存储 器 。 
尾 端 实例 4 

问 : 给 定 内 存 映射 如 下 图 所 示 ， 写 出 用 大 尾 端 格式 表示 的 16 位 数字 的 MSB 和 LSB 字 节 。 














7 0 
答 : 同样 ， 需 要 确定 在 图 示 的 内 存 中 哪个 是 最 低 字 节 的 地 址 ， 然 后 将 MSB 字 节 放 进 去 ， 因 为 是 大 尾 端 


模式 。 本 例 中 ， 内 存 是 从 上 向 下 编 址 的 一 一 某 些 处 理 器 制造 商 所 用 的 共同 的 格式 ， 上 面 是 低地 址 ， 依 次 向 
下 计数 。 由 于 内 存 是 字 节 宽度 ， 因 此 很 容易 写 出 答案 如 下 : 











50 | MSB ] 

51 LSB | 

5 四 | 
| | 
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2. 3 ”数字 格式 


现代 各 种 计算 机 在 算术 和 逻辑 数据 处 理 上 其 方法 都 是 相同 的 : 利用 相同 的 数字 格式 ， 可 
以 按照 同时 处 理 的 数据 位 数 (数据 宽度 ) 对 计算 机 进行 分 类 。 它 们 甚至 往往 采用 类 似 的 技术 
来 处 理 数字 。 早 期 的 计算 机 并 非 如 此 ， 很 多 非 标准 的 数据 宽度 和 格式 从 生 ， 其 中 大 部 分 已 成 
为 历史 。 

可 以 说 ， 大约 有 7 种 (或 更 少 的 ) 二 进 制 数 字 格式 今天 仍然 在 使 用 。 框 2. 5 讨论 了 什么 是 数 
字 格式 ， 但 为 了 让 我 们 在 后 面 的 章节 中 更 好 理解 硬件 的 处 理 ， 需 要 在 这 里 回顾 一 下 本 书 中 会 遇 
到 的 各 主要 格式 。 
什么 是 数字 格式 

我 们 都 知道 十 进 制 格式 ， 无 论 是 整数 123 还 是 小 数 1.23， 都 是 以 10 为 基数 的 例子 。 

事实 上 ， 有 无 限 多 种 方式 来 表示 一 个 数字 (有 无 限 多 种 基数 )， 但 其 中 只 有 少数 是 常见 的 。 除 了 十 进 
制 格式 以 外 ， 十 六 进 制 格 式 (基数 为 16) 经 常会 用 在 软件 中 ， 而 二 进 制 格式 (基数 为 2) 在 常用 硬件 中 ， 
并 在 本 书 所 有 的 例子 中 采用 。 


2. 3. 1 无 符号 二 进 制 


在 无 符号 二 进 制 格式 中 ， 一 个 数据 字 中 每 一 位 的 权 值 是 和 其 位 置 相关 的 2 的 相应 次 军 。 例 
如 ，8 位 二 进 制 字 00110101b 相当 于 十 进 制 的 53。 末 尾 的 b 表明 它 是 一 个 二 进 制 数字 ; 从 右 向 左 
读 ， 数 值 计算 过 程 为 ， 
1(2°) +0(2.) + 1(2°) +0(2) +1(2°) +1(2’) +0(2) +0(27) 
在 一 般 情况 下 ,一 个 n 位 二 进 制 数 x 的 值 v 可 表示 如 下 ， 其 中 x[i] 是 从 右 向 左 读 的 第 i 位 
(从 第 0 位 开始 ) : 


v= > x[i] -2° 
人 们 对 于 无 符号 二 进 制 格 式 只 需 稍 加 练习 就 很 容易 阅读 ， 并 能 有 效 地 通过 计算 机 处 理 。 


2. 3.2 原 码 


这 种 格式 保留 最 高 有 效 位 (MSB) 来 表示 正 负 ( 称 为 “符号 位 ”)， 然 后 利用 其 剩余 的 低 有 
效 位 的 无 符号 二 进 制 数值 来 表示 绝对 值 的 大 小 。 按 照 惯 例 ，MSB 为 0 表示 正 数 ， 为 1 表示 负数 。 
例如 ，4 位 带 符号 数 1001 表示 -1，8 位 数值 10001111b 相当 于 十 进 制 的 -15。 


2.3.3 反 码 


这 种 格式 在 很 大 程度 上 已 经 被 补 码 表示 法 取代 ， 但 偶尔 还 是 可 以 看 到 。 这 种 格式 同样 是 用 
MSB 表示 符号 ， 其 余 位 表示 绝对 值 。 但 是 ， 如 果 该 数字 为 负 《 即 符号 位 为 1) ， 则 绝对 值 位 的 值 
是 反 的 。 

例如 ，8 位 的 反 码 1110111 等 于 十 进 制 的 -8。 


2.3.4 补 码 


补 码 〈two's complement) 无 疑 是 现代 计算 机 中 最 常见 的 数字 表示 格式 。 由 于 它 的 高 效 性 ， 
补 码 已 经 取得 了 相当 的 优势 : 无 符号 数 算 术 运 算 的 硬件 电路 同样 可 以 用 于 补 码 运算 。 补 码 表示 
同样 用 MSB 表示 符号 ， 正 数 的 表示 类 似 于 无 符号 数 的 二 进 制 形式 。 然 而 ， 负 数 的 补 码 的 数值 位 
是 在 反 码 的 基础 上 加 1 ( 框 2.6 提供 了 用 此 方法 求 “ 一 个 数字 的 补 码 ”的 二 进 制 例子 ) 。 


15 


[23] 
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负数 的 补 码 
负数 的 补 码 很 容易 从 绝对 值 的 反 码 加 1 得 到 ， 例如， 求 -44 的 补 码 ， 


先 写 出 +44 的 7 位 二 进 制 数 : 010 1100 
然后 ， 各 位 取 反 (得 到 反 码 ): 101 0011 
最 低位 加 1: 101 0100 


最 后 ， 加 上 符号 位 (1 表示 负数 ): 1101 0100 

如 果 你 不 习惯 写 二 进 制 数 ， 可 以 试 着 把 它 分 成 4 个 一 组 来 写 。 这 样 就 很 容易 按 列 划 分 ， 有 助 于 转换 成 
十 六 进 制 (因为 二 进 制 的 每 4 位 对 应 十 六 进 制 的 1 位 )。 

例如 ， 由 二 进 制 数字 1011 表示 的 4 位 补 码 相当 于 -8+2+1= -5, 8 位 的 补 码 10001010 相 
当 于 -128 +8+2= -1l8。 

无 疑 补 码 比 上 面 提 到 的 一 些 其 他 格式 的 表示 法 更 难 读 懂 ， 但 是 相对 于 降低 硬件 复杂 度 来 说 ， 
这 是 一 个 很 小 的 代价 。 框 2.7 给 出 了 补 码 的 一 些 例子 ， 包 括 正 数 和 负数 的 补 码 。 
数 的 转换 示例 

问 1: 写 出 十 进 制 值 23 的 8 位 二 进 制 补 码 。 

答 1: 我 们 先 写 出 8 位 补 码 每 一 位 的 权 值 ， 从 左 开始 连同 符号 位 一 起 。 

| -x [| | 8 | ;i 区 i 

只 有 负数 时 才 设 符号 位 ， 本 例 中 是 正 数 ， 所 以 填 0; 接 下 来 ， 看 权 值 为 64 的 位 ， 如 果 我 们 的 数字 大 于 

64 则 会 在 这 位 写 1, 但 23 不 大 于 64， 所 以 这 位 写 0; 同样 ， 看 权 值 为 32 的 位 ， 现 在 写 下 了 : 
0 0 0 加 I & | 1 | | i | 

到 权 值 为 16 的 位 ， 数 字 23 比 16 大 ， 因 此 我 们 在 23 中 减 掉 16 得 到 余数 23 -16 =7， 并 在 权 值 16 这 栏 写 
下 lo 

接 下 来 我 们 再 比较 余数 和 权 值 8， 余 数 比 8 小 ， 所 以 在 权 值 8 这 栏 写 0; 再 比较 权 值 4， 余数 大 于 4， 
因此 计算 新 的 余数 为 7-4=3 并 在 权 值 4 这 栏 写 下 1; 按 此 规律 ， 接 着 权 值 2 和 1 这 栏 都 写 下 1。 得 到 最 终 
结果 是 : 









































0 0 0 1 0 1 l 
问 2: 写 出 十 进 制 数 -100 的 8 位 二 进 制 补 码 。 
答 2: 同样 看 上 面 的 这 行 数字 ， 我 们 知道 负数 需要 在 权 值 为 -128 的 栏 中 填写 1。 计 算 减 法 -100 -( -128) 
或 -100 +128 得 到 余数 28。 后 续 的 计算 正常 进行 一 一 在 权 值 64 这 栏 写 0、32 这 栏 写 0、16 这 栏 写 1， 得 到 
新 余数 28 -16 =12。 继 续 在 权 值 8 这 栏 写 1， 余 数 为 4， 在 权 值 4 这 栏 写 1， 其 余 的 位 写 0。 得 到 : 
0 




















! | 0 [°°o Ta 1 0 


注意 : 对 于 补 码 表示 ， 能 够 一 目 了 然 地 观察 到 该 数 是 否 为 负数 〈 最 高 位 是 1) ， 以 及 是 否 为 奇数 〈 最 低位 是 1)。 





2.3.5 移 码 (excess-n) 


我 们 后 面 讨论 浮 点 数 的 时 候 会 看 到 这 种 表示 法 。 该 格式 采用 无 符号 值 v+n 来 表示 数 w。 例 如 
8 位 的 移 127 表示 法 ， 可 以 表示 -127 ~ +128 的 数字 (以 二 进 制 位 的 方式 存储 ， 看 起 来 就 像 无 符 
号 数 0 ~255)。 

这 种 格式 对 于 学 生 而 言 可 能 会 有 一 点 儿 疑 惑 ， 比 如 8 位 移 127 格式 的 二 进 制 码 00000000 等 于 
-127 (这 是 无 符号 二 进 制 的 值 ， 本 例 中 需要 用 0 减 去 127)。 看 男 一 个 例子 11000010， 此 二 进 制 码 
的 值 应 该 是 128 +64 +2 =194， 但 由 于 是 移 127 表示 ， 因 此 需要 从 194 中 减 去 127 得 到 十 进 制 的 67。 


2.3.6 BCD 码 
BCD 码 (Binary- Coded Decimal) 曾 广泛 用 于 早期 的 计算 机 中 。 由 于 每 个 十 进 制 数字 (0 ~9) 
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都 对 应 到 BCD 中 由 一 组 4 位 二 进 制 编码 表示 ， 使 得 人 们 使 用 时 很 容易 阅读 。 如 十 进 制 73 表示 成 
BCD 码 就 是 0111 0011 。 由 于 4 位 二 进 制 可 以 表示 0 ~ 15 的 值 ， 因 此 有 些 二 进 制 位 的 组 合 在 BCD 
码 中 没有 用 到 。BCD 码 已 最 终 被 取代 ， 因 为 其 既 不 能 高 效 存储 又 不 易于 硬件 实现 。 


2. 3. 7 定点 数 表示 法 


实际 上 定点 数 表 示 法 可 应 用 于 任何 一 种 二 进 制 表示 法 (也 适用 于 十 进 制 ， 参 见 框 2.8)， 但 
在 计算 机 体系 结构 领域 通常 用 于 无 符号 数 或 补 码 表示 。 定 点 数 表示 的 数字 在 概念 上 可 以 严格 地 
定义 为 ， 采 用 一 种 按 比例 缩放 的 加 权 模 式 代 替 通 常 的 〈 即 最 低位 是 权 值 2， 下 一 位 是 2:， 第 三 
位 是 2 ， 依 次 类 推 ) 位 权 模式 。 在 一 些 数字 信和 号 处 理 (DSP) 电路 中 ， 定 点 数 表示 法 也 被 称 为 
Q 格式 。 定 点 数 表 示 法 通常 用 (m. n) 的 格式 描述 ， 其 中 m 是 假定 的 基 之 前 的 位 数 〈 十 进 制 的 
基 称 为 小 数 点 ， 但 在 处 理 其 他 进 制 的 数 时 ， 我 们 不 能 称 它 为 一 个 “十 进 制 ”小 数 点 ， 所 以 我 们 
称 它 为 基 (radix) ) , mn 是 基 (小 数 点 ) 后 面 的 位 数 。 

二 进 制 是 一 种 定点 数 格式 吗 

二 进 制 并 没有 什么 特殊 的 ， 它 只 是 基数 为 2 的 一 种 表示 数 的 方式 ， 而 不 是 我 们 熟悉 的 基数 为 10 的 方式 
(十 进 制 ) 。 

我 们 用 十 进 制 可 以 像 写 整数 〈 如 19) 那样 写 小 数 〔 如 9.54)， 同 样 我 们 可 以 用 任何 其 他 基数 表示 方式 
像 写 整数 格式 那样 写 定点 数 格 式 。 到 目前 为 止 我 们 只 看 到 了 整数 的 二 进 制 格式 ， 然 而 二 进 制定 点 数 阁 式 也 
非常 重要 ， 它 被 广泛 用 于 如 数字 信号 处 理 领域 。 

两 个 8 位 的 二 进 制 数 按照 无 符号 格式 和 (6. 2) 格式 分 别 表示 如 下 : 


无 符号 2 i ”2 2 2 2 | 2 2° 





> 











(6.2) 格式 2 : 2 2 2 2 2z 2 2 

更 多 二 进 制定 点 数 格式 的 例子 可 参考 框 2.9。 

无 符号 数 或 补 码 的 定点 数 表 示 的 好 处 是 在 硬件 实现 上 对 其 值 的 处 理 和 对 非 定 点 数 表 示 的 处 
理 方式 一 样 ， 小 数 点 只 是 在 程序 上 的 假设 而 已 。 
定点 数 格式 实例 

问 : 把 十 进 制 数 12. 625 改写 成 一 个 (7.9) 定点 数 格式 的 二 进 制 补 码 。 

答 : 首先 确定 (7.9) 格式 的 每 一 位 位 权 : 
-64]3211618[4[211l2nfsl | | 


这 里 由 于 空间 原因 位 权 低 于 1/8 的 已 经 被 删除 了 。 接 下 来 ， 因 为 是 正 数 ， 所 以 权 值 为 -64 的 这 一 位 写 0。 
然后 ， 按 照 标准 补 码 表 示 (或 无 符号 数 ) 的 方式 从 左 向 右 依次 扫描 每 一 位 ， 使 用 上 面 给 出 的 权 值 。 
得 到 12. 625 =8 +4+0.5+0.125， 因 此 结果 为 : 
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2.3.8 符号 扩展 


符号 扩展 是 指 将 一 个 指定 宽度 的 有 符号 补 码 数 的 位 宽 扩 大 。 例 如 ， 把 一 个 8 位 的 数字 转换 为 
16 位 。 虽 然 由 程序 员 显 式 指定 该 操作 只 是 偶尔 发 生 ， 但 在 加 法 或 乘法 运算 中 却 是 很 常见 的 一 个 [加 
操作 。 

可 以 通过 把 一 个 4 位 补 码 转换 为 8 位 的 例子 来 解释 什么 是 符号 扩展 。 首 先 ， 写 下 4 位 二 进 制 
补 码 数 1010。 

如 果 考 虑 是 有 符号 数 ， 我 们 知道 4 位 数 的 位 权 分 别 是 [ -8, 4，2，1] ， 而 8 位 数 的 位 权 分 
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别 是 [-128,64，,，32，16,8, 4, 2，1] 。 对 于 4 位 数 来 讲 ，1010 的 值 显然 是 
-8+2= -6 

如 果 变 成 8 位 数 时 只 是 简单 地 在 4 位 数 前 面 补 0， 即 00001010， 那 么 对 照 这 8 位 数 的 权 值 来 

看 ， 这 个 值 就 是 
8+2=10 

结果 显然 是 错 的 。 如 果 注 意 到 负数 需要 设置 符号 位 ， 进 而 简单 地 把 符号 位 变 为 1， 即 

10001010， 那 么 这 个 值 又 变 为 
-128 +8+2= -118 

结果 还 是 错 的 。 实 际 上 ， 为 了 能 够 正确 地 从 4 位 扩展 到 8 位 ， 不 仅 需要 将 最 高 的 符号 位 设置 
正确 ， 而 且 每 一 个 增加 的 位 (原始 数据 MSB 位 左边 的 每 一 位 ) 都 必须 设置 成 和 原始 数据 的 MSB 
位 相同 。 因 此 符号 位 被 扩展 得 到 11111010， 其 值 为 

-128 +64+32+16+8+2= -6 

得 到 了 正确 的 结果 。 符 号 扩展 的 另 一 个 例子 在 框 2.10 中 给 出 。 
符号 扩展 实例 

问 : 写 出 -4 的 4 位 补 码 表 示 ， 把 MSB 位 向 左 复制 4 次 ， 然 后 读 出 该 8 位 补 码 的 结果 。 

答 : 1100( -8+4+0+0) 

MSB 位 是 1， 向 左 复制 4 次 得 到 11111100。 

读 出 这 个 8 位 有 符号 数 ; ( -128 +64 +32+16+8+4) = -4。 

进一步 思考 : 对 一 个 正 数 (如 3) 重复 上 述 练 习 。 该 方法 是 否 同样 适用 于 正 数 ? 

对 于 正 数 补 码 来 讲 符号 扩展 显然 没有 难度 ,但 此 规则 仍然 适用 ( 它 没有 任何 影响 ， 却 使 硬 
件 设 计 变 得 简单 ， 因 为 该 规则 是 适用 于 所 有 的 数 而 不 是 部 分 的 数 ) 。 


2. 4 算术 运算 

本 节 讨论 能 够 执行 两 个 二 进 制 数 加 法 和 减法 运算 的 硬件 。 几 乎 所 有 的 处 理 器 ， 此 功能 都 是 
由 算术 逻辑 单元 《ALU) 完成 的 ， 它 同时 也 处 理 与 《AND) 、 或 (OR)、 非 (NOT) 等 基本 的 逻 
辑 运算 。ALU 作为 CPU 的 功能 单元 将 在 后 面 的 4.2 节 讲述 。 
2.4.1 加 法 


二 进 制 运算 是 按 位 完成 的 ， 相 邻 的 低位 计算 可 能 会 产生 进位 。 在 硬件 上 ， 一 个 全 加 器 完成 两 
个 加 数位 和 一 个 进位 输入 的 加 法 ， 产 生 一 个 带 进位 输出 的 结果 。 

图 2-3 是 一 个 全 加 器 的 符号 示意 图 ， 其 中 每 个 箭头 代表 一 个 逻辑 位 。 半 加 器 类 似 ， 但 没有 进 
位 输入 。 


2.4.2 并 行进 位 传递 加 法 器 


要 构建 一 个 8 位 并 行 加 法 器 ， 通常 使 用 8 个 全 加 器 ， 每 一 个 输入 位 对 应 一 个 ， 虽 然 至 少 有 一 
个 最 低位 可 以 使 用 稍微 简单 的 半 加 器 ， 并 行 加 法 器 如 图 2-4 所 示 。 





x y XxX7Y7 x6y6 x5y5 x4y4 xy3 x2y2 xiyl x0y0 
cc C 
图 2-3 ”一 个 全 加 器 ， 两 个 输入 位 和 一 图 2-4 进位 传递 加 法 器 或 行 波 进位 加 法 器 ， 
个 进位 输入 相 加 ， 得 到 一 位 输 由 一 串 全 加 器 和 一 个 半 加 器 构成 


出 和 进位 输出 
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在 图 2-4 中 ,x[7:0] 和 y[7:0] 表示 两 个 字 节 的 输入 ，z[7:0] 表示 一 个 字 节 的 输出 ，C 
是 最 终 的 进位 。 对 于 无 符号 数 的 加 法 ， 当 Cu 为 1 时 表示 计算 的 结果 超出 了 8 位 的 表示 。 例 如 ， 
我 们 知道 8 位 能 表示 的 最 大 无 符号 数 是 2  - 1 =255 ， 如 果 两 个 较 大 的 数 如 200 和 100 相 加 ， 结 果 
(300) 就 无 法 用 8 位 来 表示 。 这 种 情况 下 ， 进 位 就 会 被 置 1， 并 且 结 果 的 值 (z) 为 余数 300 - 
256 =44 。 

因此 ， 最 前 面 的 C,, 同 时 用 来 作 无 符号 数 溢出 标志 : 如 果 计 算 完成 后 它 被 设置 为 1， 表明 当 
前 的 加 法 器 位 数 不 够 表示 其 结果 。 进 一 步 的 考虑 见 框 2. 11。 
读者 练习 

当 进 行 有 符号 数 的 补 码 加 法 时 ， 最 高 位 的 Cu 信和 号 将 会 怎样 ? 

1. 试 着 手 算 一 个 4 位 的 加 法 器 ，4 位 补 码 表示 数 的 范围 为 -8 ~ +7。 

2. 试 着 计算 一 些 加 法 ， 如 2+8=?, 2+(-8)=?,7+7=? 以 及 (-8)+(-8)=? 

3. 你 对 Cu 信号 有 何 结论 : 对 有 符号 数 加 法 ， 其 意义 和 无 符号 数 加 法 时 一 样 吗 ? 

这 种 加 法 机 制 在 几乎 所 有 的 二 进 制 加 法 器 中 都 较 常见 。 虽 然 并 行 加 法 器 似乎 是 一 个 相对 高 
效 的 结构 ， 黄 至 和 人 们 手工 〈 或 者 使 用 算盘 ) 计算 二 进 制 加 法 的 方式 很 相似 ， 但 它 面临 的 问题 
就 是 进位 传递 的 速度 非常 受 限 ， 这 阻碍 了 它 在 大 多 数 微 处 理 器 ALU 中 的 使 用 。 

鉴于 加 法 器 的 两 个 输入 数据 是 同时 给 出 的 ， 那 么 加 法 器 的 速度 可 以 通过 计算 其 输出 所 用 的 
时 间 长 短 来 衡量 。 加 法 链 中 的 每 个 全 加 器 或 半 加 器 相对 是 较 快 的 : (现在 的 硬件 系统 中 ) 给 出 输 
人 数据 和 进位 输入 后 几 个 纳 秒 即 可 得 到 进位 输出 和 结果 。 问 题 是 ， 最 低位 的 半 加 器 (adder 0) 
必须 在 下 一 位 的 计算 (adder 1) 开始 之 前 就 完成 计算 ， 因 为 adder 1 需要 adder 0 提供 进位 才 可 以 
完成 其 计算 ， 而 该 进位 只 有 当 adder 0 计算 结束 时 才 有 效 。 然 后 adder 1 再 把 它 计 算得 到 的 进位 提 
供给 adder 2， 依 次 类 推 。 进 一 步 沿 着 加 法 链 向 前 传递 ， 在 输入 进入 加 法 器 相当 长 一 段 时 间 后 ， 
adder 6 才能 将 其 产生 的 进位 提供 给 adder 7。 

一 个 完整 的 行 波 进位 加 法 器 的 传输 延迟 计算 实例 见 框 2. 12。 这 一 点 很 重要 ， 因 为 如 果 
加 法 器 是 在 一 个 同步 系统 中 ,那么 传输 延迟 将 成 为 系统 的 一 部 分 而 限制 系统 的 最 大 时 钟 
频率 。 
实例 

问 : 一 个 4 位 并 行进 位 传递 加 法 器 的 全 加 器 和 半 加 器 如 下 : 

从 前 一 个 数据 输入 (x 或 y) 或 进位 输入 到 结果 z 的 时 间 ; 1Sns 

从 前 一 个 数据 输入 (x 或 y) 或 进位 输入 到 进位 输出 的 时 间 : 12ns 

如 果 输 入 的 加 数 x[3:0] 和 y[3:0] 在 时 刻 0 给 出 并 稳定 住 ， 经 过 多 长 时 间 加 法 器 可 以 产生 稳定 而 正确 
的 4 位 输出 ? 

答 : 从 加 法 链 尾 部 的 最 低位 开始 ，adder 0 在 时 刻 0 接收 到 稳定 的 输入 ， 其 结果 z 在 15ns 后 准备 好 ， 进 
位 在 12ns 后 得 到 。adder 1 需要 低位 的 进位 才能 开始 计算 ， 所 以 在 12ns 时 刻 才能 开始 ， 需 要 24ns 后 才能 产 
生 给 adder 2 的 正确 进位 ， 这 样 给 adder 3 的 进位 输入 需要 在 36ns 时 刻 得 到 。 然 后 adder 3 开始 加 法 计算 ， 它 
的 输出 z 将 在 Sins(36 +15) 时 刻 完成 ， 而 进位 输出 在 48ns(36 +12) 时 刻 完成 。 因 此 尽管 这 些 一 位 加 法 器 
本 身 很 快 ， 但 当 连 成 链 后 ， 需 要 Slns 才能 计算 出 结果 。 

注意 : 前 面 提 到 的 全 加 器 或 半 加 器 “开始 计算 ”可 能 有 一 点 误解 。 实 际 上 它们 都 是 组 合 层 辑 模块 ， 输 
入 状态 的 任何 一 个 变化 都 会 在 某 个 延迟 时 间 (本 例 中 最 多 15ns) 后 改变 输出 。 因 为 是 组 合 逻 辑 ， 电 路 一 直 
保持 对 输入 数据 进行 处 理 ， 并 且 输 出 也 一 直 是 激活 的 。 然 而 ， 根 据 规则 ， 我 们 知道 只 有 在 给 出 正确 的 输入 
1S$ns 和 12ns 后 〈 分 别 对 应 结果 z 和 进位 输出 ) ， 输 出 数据 才能 保证 正确 。 
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2. 4.3 超前 进位 


为 了 加 速 前 面 提 到 的 并 行 加 法 器 ， 一 种 方法 是 对 加 法 链 上 的 每 个 加 法 器 都 尽量 早点 给 出 进 
位 输入 。 

可 以 进行 进位 预测 ， 这 是 一 块 能 够 直接 计算 输出 进位 值 的 组 合 逻 辑 。 实 际 上 ， 它 可 以 同时 为 加 
法 链 上 的 每 一 个 加 法 器 提供 进位 值 ， 其 传输 延迟 和 b(1) a(l) b(0) a(0) 
一 个 单独 的 半 加 器 差不多 。 图 2-5 是 一 个 3 位 加 法 
器 的 进位 预测 逻辑 。 注 意 一 下 描述 这 些 超前 进位 单 进位 预测 多 辑 
元 的 逻辑 方程 的 形成 是 很 有 意义 的 〈 见 框 2 13) 。 i a 
读者 练习 


2. 扩展 到 上 面 提 到 的 3 位 加 法 器 。 












3. 重新 写 出 Co 和 Ci 的 方程 ， 只 根据 输入 产生 ZX2) z(1) z(0) 
(而 不 含 任 何 一 个 进位 输入 ) 。 注 意 产生 C, 所 需 的 基 图 2-5 超前 进位 加 法 器 由 几 个 全 加 器 
本 运算 数量 较 少 ， 因 此 完成 此 计算 所 需 的 门 器 件 传输 和 进位 预测 逻辑 构成 
延 识 也 较 小 。 


4. 扩展 到 推导 C, 的 方程 ， 需 要 多 少 计 算 步 骤 ? 是 不 是 比 C, 的 多 ? 对 于 更 长 的 加 法 链 ， 你 能 不 能 推断 
出 这 种 方法 的 规律 〈( 从 传输 延迟 和 逮 辑 复杂 性 方面 考虑 )? 
2.4.4 减法 

和 加 法 类 似 ， 减 法 也 是 按 位 计算 的 。 当 执行 减法 运算 时 ， 我 们 是 否 需要 通过 相 邻 位 来 考虑 结 
果 ? 答案 是 肯定 的 ， 但 这 里 都 是 从 高 位 的 借 位 ， 而 不 是 从 低位 的 进位 。 这 种 借 位 存在 和 加 法 类 似 
的 问题 。 

考虑 到 硬件 的 可 计算 性 ， 如 果 不 是 加 法 和 减法 可 以 互相 转换 〈 在 多 种 数字 格式 中 ) ， 就 会 需 
要 一 个 专门 的 减法 器 。 例 如 ， 一 个 十 进 制 的 计算 99 -23 =76， 可 以 重新 写成 99 + ( -23) ， 得 到 
相同 的 结果 。 

虽然 结果 是 相同 的 ， 但 它 是 通过 计算 加 法 而 不 是 减法 来 得 到 结果 ， 而 且 第 二 个 操作 数 的 符 
号 改变 了 。 许 多 商业 ALU 的 工作 方式 类 似 : 只 包含 一 个 加 法 电路 和 一 个 操作 数 的 符号 转换 机 制 。 
在 2.3.4 节 我 们 看 到 ， 改 变 一 个 数 的 补 码 表示 的 符号 非常 简单 : 先 各 位 取 反 表 末 位 《LSB) 加 
一 ， 末 位 加 一 相当 于 把 那个 加 法 器 的 进位 输入 置 1。 

不 用 说 ， 这 是 很 容易 实现 的 硬件 电路 ， 如 z[0.n-1] 
图 2-6 所 示 的 减法 逻辑 。 在 这 个 电路 中 ， 输 入 操 I 






作 数 y 经 过 异 或 门 用 来 完成 按 位 取 反 ( 异 或 就 像 c ,i 


另 一 个 输入 端的 每 一 位 将 被 取 反 ， 否 则 维持 不 
变 ) 。 如 果 电 路 是 执行 减法 ，add/subtract 线 保持 
高 电 平 ， 减 数 被 取 负 ， 且 Ci 也 设置 为 高 有 效 ， 从 


add/subtract 
而 实现 末 位 加 1 的 效果 。 WO-ned) 
执行 减法 时 还 有 一 块 逻辑 需要 说 一 下 ， 就 是 图 2-6 减法 逻辑 主要 包括 一 个 
溢出 : 进行 加 法 运算 时 ， 可 以 使 用 最 高 位 的 进位 带 异 或 门 的 加 法 器 


C,, 作 为 溢出 标志 。 但 这 在 减法 运算 中 却 不 行 ， 我们 通过 下 面 的 4 位 补 码 的 例子 来 具体 阐明 : 
0010 +1110=? 2+( -2)=? 
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0010 + 1110 =0000 + C,, 

显然 结果 应 该 是 零 没 有 溢出 ， 但 是 最 高 位 进位 C,., 也 被 置 位 。 再 看 一 个 本 应 有 溢出 的 例子 : 

0111 +0110 =? 7+6=? 

0111 +0110 =1101 结果 = -3? 

结果 是 -3 还 是 不 对 ， 应 该 是 13。 由 此 可 见 ， 只 用 C,, 来 判断 的 电路 显然 不 够 ， 还 应 考虑 到 
处 理 过 程 中 值 的 变化 。 那 就 是 符号 位 应 该 在 加 之 前 进行 检测 ， 在 此 基础 上 再 对 结果 进行 检测 。 这 
个 计算 量 并 不 大 ， 一 个 简单 的 查找 表 就 够 了 : 

正 数 + 正 数 = 正 数 
正 数 + 负数 = 符号 未 知 
负数 + 正 数 = 符 号 未 知 
负数 + 负数 = 负数 

对 于 两 个 异 号 数 〈( 一 个 正 数 和 一 个 负数 ) 的 计算 ,结果 的 符号 位 是 未 知 的 ,但 却 绝 对 不 会 
产生 溢出 的 问题 〈 可 以 这 样 考虑 : 相 加 后 负数 会 使 正 数 的 值 变 小 ， 唯 一 不 会 变 小 的 情况 就 是 正 
加 数 是 零 ， 那 结果 就 是 输入 的 负 加 数 ， 其 输入 数据 本 身 不 包含 进位 标志 )。 

对 于 两 个 正 数 相 加 ， 结 果 的 符号 位 应 该 是 0， 如 果 不 是 则 发 生 溢出 。 对 于 两 个 负数 相 加 ， 结 
果 的 符号 位 应 该 是 1， 如 果 不 是 则 发 生 溢出 。 因 此 看 到 只 用 C,, 的 值 判 断 是 否 溢出 是 不 够 的 。 在 
多 数 处 理 器 中 ， 会 提供 一 个 单独 的 洲 出 标志 ， 通 过 上 面 这 种 符号 位 的 判断 逻辑 来 进行 设置 。 思 考 
实例 见 框 2. 14。 
读者 练习 

请 读者 试 着 在 本 文 基础 上 对 减法 进行 扩展 讨论 。 使 用 4 位 补 码 的 有 符号 数 格式 ,执行 一 些 加 法 和 
一 些 减法 。 验 证 所 有 的 减法 a -4b 都 能 用 二 进 制 加 法 a+( -5) 来 实现 ; 验证 Cu 信号 并 不 能 标识 溢出 
状态 。 

执行 加 法 -5+ -5 和 -5+ -1， 观察 符号 位 和 结果 的 进位 位 。 你 能 否 总 结 一 下 ，C。, 信 号 是 无 用 的 还 
是 能 够 用 来 增加 结果 位 的 范围 呢 ? 


2.5 乘法 

在 早期 的 微 处 理 器 时 代 ,， 在 CPU 内 部 用 逻辑 实现 乘法 太 复 杂 ， 都 是 采用 外 部 单元 实现 。 即 
使 当 它 终于 挤 进 同一 块 硅 片 中 时 ， 也 是 非常 拥挤 : 在 早期 的 ARM 处 理 器 上 ， 乘 法 硬件 占用 的 奎 
片面 积 超过 整个 ARM CPU 核 。 

后 来 ， 厂 家 调整 了 乘法 的 目标 应 用 。 对 快速 实时 艇 入 式 处 理 器 (可 能 是 一 个 处 理 GSM 手 
机 语音 编码 的 ARM7) ， 需 要 尽 可 能 快 地 执行 乘法 ， 从 而 有 了 高 速 乘法 器 。 相 比 于 非 实 时 处 理 
器 上 低速 、 多 周期 的 乘法 器 来 说 (如 在 20 世纪 90 年 代 初 的 ARM610 ， 其 目的 是 增强 台式 
机 的 性 能 ， 或 作为 世界 上 第 一 个 PDA 一 一 Apple Newton 的 核心 ) ， 这 显然 会 占用 相当 天 的 硅 
片面 积 。 

有 很 多 种 方法 可 以 实现 m xn 的 乘法 运算 ， 各 有 不 同 的 效率 和 不 同 的 复杂 度 。 典 型 的 方法 有 
以 下 几 种 : 

1. 加 法 适 代 〈 将 严 累 加 于 次 ); 

2. 部 分 积 移 位 加 ; 

3. 将 n 拆 分 成 一 系列 数 的 加 法 ， 再 对 m 左 移 ; 

4. Booth 和 Robertson 方法 。 

每 一 种 都 会 在 下 面 的 小 节 中 讨论 。 当 然 还 有 更 深奥 的 方法 ， 因 为 这 是 一 个 活跃 的 研究 领域 。 
有 趣 的 是 还 有 一 些 方法 是 通过 佑 值 而 不 是 计算 来 实现 乘法 ， 或 者 是 以 损失 精度 为 代价 。 比 如 ， 将 
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操作 数 转换 到 对 数 域 再 通过 加 来 实现 ,或 者 使 用 蔡 代 数字 格式 或 余数 格式 。 


替代 数字 格式 会 在 9.5 节 简 要 介绍 ， 但 当 使 用 这 样 的 硬件 执行 二 进 制 计算 时 ， 有 太 多 种 替代 
以 致 无 法 把 它们 全 部 描述 出 来 。 


2. 5. 1 加 法 迭代 法 


实现 乘法 最 简单 的 方法 也 是 实现 复杂 度 和 芯片 面积 最 小 的 方法 ， 但 这 是 以 慢 为 代价 的 。 整 
数 相 乘 m xn 的 伪 代 码 看 起 来 就 像 : 


Set register A 人 < m 

set register B < 二 0 

loop while (A A—1)>0 

BoB+n 

由 于 包含 一 个 n 次 的 循环 ,执行 时 间 就 会 和 nn 相关。 如 果 n 比较 小 ， 那 么 结果 B 就 会 早点 计算 
出 来 。 

如 果 我 们 考虑 一 个 32 位 整数 ， 它 可 以 表示 超过 20 亿 的 值 ， 那 就 会 需要 很 多 次 的 循环 迭代 ， 
因而 意味 着 一 个 相当 长 的 执行 时 间 。 


2. 5. 2 部 分 积 方法 


除了 规模 的 迭代 方法 外 〈 像 上 面 介 绍 的 加 法 迭代 方法 ) ， 部 分 积 是 一 个 迭代 规模 为 壮 的 位 
数 的 方法 。 
对 数字 n 的 每 一 位 依次 进行 检查 ， 从 最 低位 到 最 高 位 ， 如 果 这 一 位 是 1， 将 m 左 移 到 检测 为 
1 的 这 一 位 对 齐 ， 将 得 到 的 部 分 积 进行 累加 。 在 乘法 术语 上 ， 这 两 个 数 被 称 为 乘 数 和 被 乘 数 ， 尽 
管 我 们 知道 对 十 进 制 数 无 论 谁 做 乘 数 结果 都 是 一 样 的 ， 即 (mxn)= (nxm)。 
下 面 是 一 个 部 分 积 的 例子 : 
1001 被 乘 数 9 
1011 乘 数 11 
1001 “《〈 由 于 乘 数 的 第 0 位 =1， 将 9 左 移 到 与 第 0 位 对 齐 ) 
1001 (由 于 乘 数 的 第 1 位 =1， 将 9 左 移 到 与 第 1 位 对 齐 ) 
0000 (由 于 乘 数 的 第 2 位 =0， 将 0 左 移 到 与 第 2 位 对 齐 ) 
1001 (由 于 乘 数 的 第 3 位 =1， 将 9 左 移 到 与 第 3 位 对 齐 ) 
01100011 ”乘积 结果 =99 (部 分 积 的 累加 和 ) 
如 果 要 进行 带 符号 整数 的 补 码 运算 ， 情 况 会 稍微 复杂 一 些 ， 首 先 乘 数 的 最 高 位 是 符号 位 ， 其 
次 会 用 到 符号 扩展 〈 见 2.3.4 节 )。 
对 于 有 符号 的 情况 ， 所 有 的 部 分 积 都 需要 符号 扩展 ， 将 其 扩展 到 乘积 的 位 宽 〈 由 于 符号 位 
占 1 位 ， 所 以 默认 是 两 个 输入 数据 的 长 度 相 加 再 减 1， 例 如 ， 一 个 6 位 的 有 符号 数 加 上 7 位 的 有 
符号 数 将 需要 12 位 来 表示 结果 ) 。 
由 于 每 个 部 分 积 对 应 乘 数 的 一 位 ， 且 根据 乘 数 的 位 权 进 行 移 位 ， 那么 最 高 有 效 位 ( MSB) 
对 应 的 部 分 积 是 一 个 特殊 的 情况 : 位 的 权 值 为 负 ， 因 此 ， 这 个 部 分 积 必须 从 累加 和 中 减 去 而 不 是 
加 上 。 图 2-7 显示 了 这 个 流程 图 ， 其 中 假设 灰色 的 补 码 累加 模块 能 够 完成 符号 扩展 。 
为 了 更 好 地 理解 这 一 过 程 ， 最 好 是 用 这 种 方法 手工 做 几 个 简单 的 二 进 制 乘法 的 例子 ， 读 者 
可 以 仿照 框 2. 15 中 的 例子 完成 。 





第 2 章 基础 知识 ' 23 









入 口 ，M 是 被 乘 数 ， 
Q 是 乘 数 〈 均 为 "位 ) ， 
结果 放 在 寄存 器 A 中 2n 位 ) 


A=A+(M<<count) x Q[count] 


注意 减法 : Q 的 MSB 位 
是 其 符号 位 


A=A-(M<<n) x Q[n] 









count=count+ 1 






A=A+(M<<counb x Q[count | 
灰色 框 中 的 一 位 乘 “…、 
由 累加 切换 功能 简 
单 实 现 









A=A+(M<<count) 





图 2-7 部 分 积 乘法 流程 图 


补 码 乘法 实例 
例如 : -5x4 (有 符号 数 ) : 
1011 被 乘 数 -5 
0100 ” 乘 数 4 
00000000 ” (由 于 乘 数 第 0 位 =0, 将 0 左 移 0 位 ， 且 符号 扩展 ) 
+ 0000000 (由 于 乘 数 第 1 位 =1, 将 0 左 移 1 位 ， 且 符号 扩展 ) 
+111011 (由 于 乘 数 第 2 位 =0, 将 -5 左 移 1 位 ， 且 符号 扩展 ) 
+ 00000 (由 于 乘 数 第 3 位 =0, 将 0 左 移 1 位 ， 且 符号 扩展 ) 
=11101100 ”结果 = -128 +64+32+8+4= -20 
类 似 地 ， 我 们 再 看 4x ( -5) (有 符号 数 ): 
0100 ”被 乘 数 4 
1011 乘 数 -5 
00000100 ”( 由 于 乘 数 第 0 位 =1,， 将 4 左 移 0 位 ， 且 符号 扩展 ) 
+ 0000100 (由 于 乘 数 第 1 位 =1， 将 4 左 移 1 位 ， 且 符号 扩展 ) 
+000000 (由 于 乘 数 第 2 位 =0,， 将 0 左 移 2 位 ， 且 符号 扩展 ) 
-00100 (由 于 乘 数 第 3 位 =1, 将 0 左 移 3 位 ， 且 符号 扩展 ) 
=11101100 ”结果 = -128+64+32+8+4= -20 
但 是 此 例 中 最 后 一 行 运算 是 减法 ， 我 们 可 以 对 要 减 的 数 连 同 符号 位 一 起 各 位 取 反 再 加 1 (00100000 一 
取 反 一 11011111 一 +1 一 11100000) ， 然 后 再 把 它 和 其 他 的 部 分 积 相 加 即 可 ， 如 下 : 
00000100 
+0000100 
+000000 
+11100 
=11101100 ”结果 = -20 
我 们 看 到 结果 都 是 一 样 的 。 至 此 我 们 讨论 了 需要 符号 扩展 的 情况 ， 以 及 当 乘 数 为 负 时 所 引起 的 最 后 一 
行 部 分 积 变 加 为 减 的 情况 。 
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实际 上 ， 反 方向 进行 部 分 积 的 累加 可 能 会 更 有 效 〈 即 向 下 循环 而 不 是 向 上 循环 ) 。 最 好 的 情 
况 是 不 需要 以 不 同方 式 处 理 乘 数 符号 位 的 部 分 积 〈 因 为 这 并 不 是 累加 ， 它 只 是 加 法 运算 之 前 累 
加 器 中 的 值 ， 从 而 使 得 其 符号 标志 在 数据 加 载 时 就 被 处 理 掉 ) 。 

图 2-8 中 的 框图 描述 了 用 于 无 符号 数 的 另 一 种 部 分 积 乘法 器 方法 〈 此 方法 较 容易 扩展 为 补 码 
格式 ) ， 图 中 给 出 了 一 旦 设置 (加载 操作 数 ) 完成 各 操作 的 执行 顺序 。 

在 设置 阶段 ， 将 累加 器 的 输出 端 Q 复位 为 零 ， 把 乘 数 和 被 乘 数 加 载 到 正确 位 置 ; 步 又 1， 测 
试 乘 数 的 最 低位 ; 如 果 是 1 (步骤 2) ， 则 将 被 加 数 加 到 累加 器 〈 步 骤 3); 不 管 前 面 两 个 步 又 是 
否 满足 条 件 ， 步 又 4 都 将 整个 累加 器 右 移 一 位 。 系 统 循环 n 次 (该 控制 逻辑 没有 画 出 ) 结束 ， 
将 结果 保存 在 一 个 长 寄存 器 中 。 


) | "位 寄存 器 

















2: 如 果 B0=1 则 触发 





shift and 
add Selector 


es 3:Q=Q+A :整个 寄存 
Ai (如 果 触 发 了 ) ' 移 一 位 1: 测 试 位 





n-bit adder 

















图 2-8 用 累加 器 实现 的 有 符号 数 部 分 积 乘法 器 位 级 框图 


比较 此 方法 和 图 2-7 中 流程 图 的 不 同 ， 涉 及 寄存 器 个 数 、 总 线 宽度 、 连 接 、 开 关 、 加 法 器 大 
小 以 及 控制 逻辑 各 方面 。 

有 趣 的 是 ， 这 种 乘法 运算 方法 ， 也 包括 右 移 方法 (表示 一 个 数 除 以 2) ， 据 说 已 经 被 俄罗斯 
农民 使 用 了 几 百 年 ， 他 们 用 此 方法 轻松 地 计算 相当 复杂 的 十 进 制 乘法 。 该 算法 首先 是 将 待 乘 的 
两 个 数 A 和 B 分 别 写 在 两 列 的 标题 栏 上 。 我 们 以 31 乘 以 17 作为 例子 : 

下 = 二 三 汪 
从 上 向 下 写 ,每 一 行 都 将 B 的 值 除 以 2， 丢 弃 小 数 部 分 ， 直 到 值 为 1; 与 此 类 似 再 填 A 栏 ， 


但 改 成 每 一 行 的 值 为 上 面 的 两 倍 : 
B=17 A=31 
8 62 
4 124 
2 248 
1 496 


接 下 来 ， 把 所 有 B 列 为 奇数 的 行 的 A 列 的 值 加 起 来 即 可 。 本 例 中 ，B 列 只 有 17 和 1 是 奇数 ， 
因此 最 后 乘积 结果 是 31 +496 =527， 显 然 是 正确 的 。 

注意 本 节 给 出 这 种 方法 绝 不 是 唯一 的 硬件 能 够 实现 的 部 分 积 方法 ， 也 绝 不 是 唯一 可 用 的 乘 
法 方法 (即便 是 在 俄罗斯 农民 中 )。 


2. 5.3 移 位 加 方法 


移 位 加 方法 基于 这 样 一 个 事实 : 对 二 进 制 数 来 讲 ， 左 移 一 位 相当 于 乘 以 2， 左 移 两 位 相当 于 
乘 以 4， 依 次 类 推 。 
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应 用 这 个 属性 执行 乘法 操作 时 将 不 可 避免 的 遇 到 问题 ， 当 在 此 基础 上 进行 迭代 加 法 时 ， 操 
作 的 次 数 将 取决 于 乘 数 的 具体 值 ， 而 不 是 乘 数 本 身 的 位 宽 。 鉴 于 此 ， 该 方法 在 商业 处 理 器 的 通用 
乘法 器 中 很 少见 到 。 但 当 乘 数 是 固定 值 并 且 近 似 于 2 的 寡 时 ， 该 方法 显得 非常 有 效 。 因 此 ， 该 方 
法 多 用 于 数字 滤波 器 〈 包 含 一 系列 乘法 运算 的 器 件 ) ， 其 乘 数 的 值 是 预先 确定 的 。 

此 方法 也 易于 实现 基于 FPGA” 的 定点 滤波 器 设计 ， 因 为 在 这 类 设计 中 ， 从 一 个 加 法 器 传 到 
下 一 个 就 是 简单 地 把 两 个 逻辑 单元 用 线 连 起 来 ， 右 移 可 以 通过 把 一 个 单元 的 输出 位 0，1，2，… 
连接 到 下 一 个 单元 的 输入 位 1，2， 3 ，… 而 轻松 地 完成 。 


2.5.4 Booth 和 Robertson 方法 


Booth 方法 类 似 于 部 分 积 方法 ， 从 右 向 左 扫描 乘 数 的 每 一 位 ， 然 后 根据 乘 数 位 的 值 ， 对 被 乘 
数 经 过 移 位 后 的 值 进行 加 或 减 。 不 同 的 是 在 Booth 方法 中 ， 乘 数 的 位 是 两 位 两 位 进行 检测 ， 而 不 
是 一 位 一 位 。 对 该 方法 的 一 种 扩展 是 4 位 并 行 检测 ， 而 Robertson 方法 是 整个 字 节 并 行 检测 。 

这 些 方 法 的 优点 是 速度 极 快 ， 但 其 逻辑 会 随 着 并 行 表 2-1 Booth 方法 中 的 规则 定义 
检测 的 位 宽 增 加 而 变 得 复杂 。 XX 











xX, Xi_1 规则 
Booth 方法 的 关键 是 定义 一 个 规则 ， 就 是 如 何 按照 1 : 志和 
ry \H 一 ~ 3] 
乘 数 的 某 两 位 的 值 对 被 乘 数 进行 加 或 减 。 定 义 乘 数 中 相 一 一 0 一 一 移 位 请 的 被 有 牧 
邻 的 两 位 为 X, 和 成 ，， 从 ;=0 开始 扫描 乘 数 ， 表 2-1 列 1 1 无 操作 


出 了 相 邻 两 位 的 所 有 组 合 及 相应 的 规则 。 
当 从 累加 器 中 加 或 减 一 个 被 乘 数 时 ， 和 部 分 积 方法 类 似 ， 先 要 将 其 左 移 到 第 i 位 的 位 置 。 
框 2. 16 和 框 2. 17 给 出 了 这 一 过 程 的 详细 实例 。 
读者 练习 
考虑 9 x10 (无 符号 乘 ) : 
1001 被 乘 数 为 9 
1010 ” 乘 数 为 10 
0000 ”(i=0 时， 无 操作 ， 因 为 位 对 为 未 位 0 和 一 个 隐藏 的 0) 
-1001 (i=1 时 ， 减 去 被 乘 数 ， 因 为 位 对 =10) 
+ 1001 (i=2 时 ， 加 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 
-1001 (i=3 时 ， 减 去 被 乘 数 左 移 3 位 的 值 ， 因 为 位 对 =10) 
+1001 (i=4 时 ， 加 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 
(i=5 及 以 后 ,无 操作 ， 因 为 所 有 位 对 =00) 
因此 ， 下 面 的 累加 就 可 得 到 结果 : 
10010000 
一 1001000 
+100100 
— 10010 
或 者 把 减法 转换 成 加 法 (方法 见 2.4.4 节 ) : 
10010000 
+ 10111000 
+ 100100 
+11101110 
=01011010 

















全 FPGA: 现场 可 编程 门 阵列 (Field Programmable Gate Armray) ， 一 个 灵活 的 、 可 编程 的 逻辑 设备 。 
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得 到 乘积 ; 

1011010 =64 +16+8 +2=90 (正确 ) 
Booth 方法 实例 

考虑 -9 x11l (有 符号 乘 ) : 

11110111 ”被 乘 数 为 ~9 

00001011 ” 乘 数 为 11 

-11110111 (i=0 时 ， 减 去 被 乘 数 ， 因 为 位 对 =10) 

0000000 (i=1 时 ,无 操作 ， 因 为 位 对 =11) 

+110111 (i=2 时 ， 加 上 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 

-10111 (i=3 时 ， 减 去 被 乘 数 左 移 3 位 的 值 ， 因 为 位 对 =10) 

+0111 (i=4 时 ， 加 上 被 乘 数 左 移 2 位 的 值 ， 因 为 位 对 =01) 

000 (i=5 及 以 后 ,无 操作 ， 因 为 所 有 位 对 =00) 
因此 ,下面 的 累加 就 可 得 到 结果 : 

-11110111 

+11011100 

-10111000 

+01110000 
或 者 把 减法 转换 成 加 法 《方法 见 2.4.4 节 ): 

00001001 

+11011100 

+01001000 

+01110000 

=10011101 + 进位 
得 到 乘积 : 

10011101 = -128+16+8+4+1= -99 (正确 ) 

需要 注意 的 是 ， 当 i=0 时 ， 检 测 的 两 位 分 别 是 乘 数位 的 最 低位 和 一 个 假想 位 0。 因 此 当 乘 数 的 
最 低位 是 “1” 时 ， 被 乘 数 一 定 要 被 减 掩 〈 即 是 按照 “10” 对 待 的 ) 。 在 第 二 个 例子 ( 框 2.17) 中 
就 是 这 样 。 

还 有 两 点 值得 提 一 下 。 首 先 ， 处 理 有 符号 补 码 格式 操作 数 时 ， 部 分 积 必须 进行 符号 扩展 ， 这 
和 完全 的 部 分 积 乘法 器 是 一 样 的 。 其 次 ， 从 右 向 左 扫描 时 ， 由 于 最 右 侧 有 一 个 假想 位 0 在 在， 这 
意味 着 遇 到 的 第 一 个 非 等 值 对 〈 两 位 ) 一 定 是 “10”， 对 应 着 一 个 减法 。 这 条 规律 可 能 会 有 助 于 
进行 硬件 实现 。 

尽管 有 人 已 经 从 事 二 进 制 运算 很 多 年 ， 本 书 的 作者 还 是 要 提醒 : 在 二 进 制 加 法 中 太 容 易 犯 
许多 非常 细小 的 错误 了 。 如 果 你 在 考试 中 过 到 这 个 题目 ， 请 仔细 检查 你 的 运算 ， 第 一 次 就 答对 并 
不 像 看 上 去 的 那么 容易 。 

前 面 提 到 ， 用 查找 表 方 法 可 以 把 Booth 方法 扩展 为 同时 检测 4 位 ，Robertson 方法 又 向 前 迈 出 
了 一 步 ， 建 立 了 一 个 8 位 的 查找 表 。 这 些 方法 其 实 常见 于 各 种 现代 处 理 器 ,尽管 它们 会 占用 相当 
大 的 硅 面 积 。 


2.6 除法 


许多 年 来 ， 作 为 商品 的 CPU 甚至 是 DSP 都 没有 用 硬件 实现 除法 ， 因 为 其 复杂 性 和 占用 的 硅 
面积 都 太 大 。Analog Devices 公司 的 DSP 及 其 他 儿 种 芯片 中 包括 DIV 除法 指令 ， 但 通常 这 只 是 一 
个 辅助 硬件 ， 通 过 采用 非常 基本 的 减法 进行 迭代 而 实现 。 
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减法 迭代 


除法 的 过 程 就 是 判断 被 除数 Q 中 包含 多 少 个 除数 M (结果 是 商 QAM) ， 因 此 可 以 简单 地 数 一 
下 Q 减 M 可 以 减 多 少 次 ， 直 到 余数 小 于 M 为 止 。 例如， 计算 13/4， 讨论 下 面 的 循环 : 

迭代 次 数 i= 1， 余 数 r=13 -4 =9i 

迭代 次 数 i=2， 余数 +r=9 -4=5; 

迭代 次 数 i=3， 余数 r=5 -4=1; 

余数 1 小 于 除数 4， 因 此 商 为 3 余数 是 1。 

对 二 进 制 的 计算 过 程 是 一 样 的 ， 框 2. 18 中 给 出 的 实例 也 许 是 最 好 的 长 除法 例子 。 
长 除法 实例 

考虑 23 +5 (无 符号 除 )。 

首先 以 长 除法 的 格式 写 下 其 二 进 制 值 : 

101 010111 





除数 被 除数 
然后 ， 从 最 高 位 ( 左 ) 开始 向 最 低位 〈 右 ) 扫描 被 除数 的 每 一 位 ， 看 在 被 除数 中 是 否 能 “找到 ” 除 
数 。 每 一 次 ， 如 果 找 不 到 则 在 被 除数 上 面相 应 的 位 置 写 “0”， 再 看 下 一 位 。 经 过 3 次 和 迭代， 得 到 : 
_000 ( 商 ) 
101 | ron 


但 是 现在 ， 在 被 除数 的 当前 位 置 能 找到 101， 因 此 把 101 写 在 被 除数 的 下 面 ， 并 在 被 除数 上 面 的 相应 
位 置 写 “1”。 然 后 从 被 除数 中 减 掉 除 数 〈( 在 找到 那 一 位 的 位 置 )， 形 成 一 个 新 的 被 除数 : 
0001 
jo | 一 一 


一 101 
接 下 来 ,继续 从 左 向 右 扫描 ， 但 是 这 次 从 新 的 被 除数 中 寻找 除数 。 本 例 中 这 次 没 找到 ; 扫描 所 有 位 后 ， 
得 到 ; 


000100 
101 010111 


- 101 
0000 


结果 如 上 : 商 是 000100， 余 数 是 000011。 我 们 做 的 是 23 除 以 5， 期 望 的 商 是 4 (正确 ) 余数 是 3 (也 正确 )。 

所 以 现在 的 问题 是 ， 如 何 进行 有 符号 整数 的 除法 ? 答案 : 大 概 最 有 效 的 方法 是 记 下 两 个 操作 
数 的 符号 ， 把 它们 都 转换 为 无 符号 数 ， 执 行 完 除法 后 再 把 正确 的 符号 位 加 回去 。 除 法 的 符号 规则 
和 乘法 一 样 ， 只 有 在 两 个 操作 数 异 号 的 时 候 结果 为 负 。 

主流 微 处 理 器 的 除法 过 程 如 图 2-9 所 示 。 仔 细 检 查 后 会 提出 一 些 问 题 ， 如 “为 什么 A 和 1 
每 次 迭代 都 左 移 ?”“ 为 什么 在 循环 中 执行 一 个 加 法 Q =Q+M?” 要 回答 这 些 问题 ， 可 以 考虑 这 
些 操作 是 如 何 通 过 CPU 里 的 寄存 器 执行 的 。 这 可 以 作为 一 个 纸 上 练 习 ， 遵 循 算法 的 操作 完成 一 
个 除法 例子 ， 可 能 是 两 个 6 位 的 数字 。 这 样 的 练习 有 助 于 阐明 系统 是 如 何 工作 的 。 
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入 口 ，n 位 除法 Q/M， 
M 是 除数 ，Q 是 被 除数 


A=0，count=0，M=M<<n 
A<<1，Q<<1 




















出 口 ，A 是 商 ，Q 是 余数 


图 2-9 除法 算法 流程 图 


注意 在 算法 结束 时 ， 寄 存 器 A 中 保存 了 结果 的 商 ， 余 数 保存 在 寄存 器 Q 中 。 算 法 将 迭代 
次 , n 是 输入 字 的 位 宽 。 一 如 既往 ， 完 全 有 可 能 推导 出 其 他 不 同 的 流程 图 ， 例如， 有 些 方法 其 至 
会 从 相反 的 方向 扫描 每 一 位 并 和 迭代。 


2.7 定点 数 格式 的 运算 

2.3.7 节 介 绍 了 使 用 Q 格式 表示 的 定点 数 表示 法 。 尽 管 需 要 定点 数 表示 的 原因 有 很 多 ,但 其 
中 一 个 主要 原因 是 在 数字 信号 处 理 中 ， 有 很 长 的 数字 滤波 器 ， 需 要 成 百 甚至 上 千 的 乘 累加 运算 
来 确定 结果 。 

试想 一 下 ， 如 果 渡 波 器 的 一 些 权 值 (滤波 器 中 国定 的 值 ， 用 来 习 以 输入 数据 ) 非常 小 ， 那 
么 被 这 些小 的 值 乘 了 很 多 次 之 后 ， 结 果 会 更 小 ， 在 所 使 用 的 数字 格式 下 会 被 伟人 到 零 。 相 反 ， 如 
果 一 些 权 值 很 大 ， 被 乘 过 多 次 之 后 的 结果 就 会 非常 大 ， 导 致 溢出 。 可 以 理解 ， 这 种 滤波 器 的 设计 
是 非常 敏感 的 平衡 行为 。 

幸运 的 是 ， 有 一 个 合理 、 高 效 的 解决 方案 : 确保 操作 数 是 定点 数 格 式 ， 小 于 但 尽 可 能 接近 
1.0。 其 理由 是 ， 任 何 一 个 数字 乘 以 小 于 或 等 于 1.0 的 结果 不 会 大 于 它 本 身 。 因 此 ， 我们 确保 这 
样 的 两 个 数字 相 乘 之 后 ， 绝 不 会 导致 溢出 。 同 样 ， 任 何 数 乘 以 一 个 值 略 小 于 1. 0 的 数 之 后 ， 其 结 
果 不 会 太 小 ， 因 此 结果 不 太 可 能 快速 地 被 伟人 到 零 。 

这 种 做 法 是 可 行 的 ， 因 为 在 浪 波 器 中 只 是 进行 怨 和 加 ， 这 些 是 线性 过 程 : (a xb+ec) 和 
(10a xb+loc) /10 的 结果 是 一 样 的 。 

再 次 提醒 ， 实 际 使 用 的 定点 数 格式 和 用 于 执行 计算 的 硬件 是 不 相关 的 。 它 只 是 一 个 抽象 的 
概念 ， 软 件 工 程 师 必须 牢记 。 这 将 在 本 章 后 面 的 讲述 中 通过 不 同 的 例子 来 说 明 。 


2.7.1 定点 数 的 运算 


加 法 一 定 可 以 在 两 个 定点 数 格 式 的 数字 之 间 完 成 ， 但 只 有 当 两 个 操作 数 的 格式 统一 时 才能 
得 到 正确 的 结果 ， 结 果 的 格式 和 操作 数 的 格式 一 样 : 
(mn) + (m.n) = (m.n) 


(mn) (mn) = (m.n) 
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框 2. 19 中 的 两 个 例子 说 明了 这 种 定点 数 格式 数字 的 运算 。 
定点 数 表示 实例 

问 1: 用 (2.2) 格式 的 定点 数 表示 法 表示 1.75 和 1.25， 把 两 个 数 相 加 并 给 出 结果 。 

答 : 首先 计算 (2.2) 格式 的 位 权 : 小 数 点 右边 有 两 位 ， 小 数 点 左边 有 两 位 。 向 左 的 数字 是 整数 权 值 ， 
是 2 的 医 ， 从 1 开始 。 往 右边 的 数字 是 定点 数 权 值 ， 是 2 的 守 的 倒数 ， 从 1/2 开始 : 

[2 2 [2 | 2 | 

我 们 可 以 把 1.75 分 解 为 1+0.5+0.25， 把 1.25 分 解 为 1+0.25， 写 出 (2.2) 二 进 制 格式 为 0111 和 0101。 

这 两 个 操作 数 的 二 进 制 加 法 结果 为 1100， 它 正确 吗 ? 

1100 在 (2.2) 格式 时 等 于 2+1 =3， 当 然 1.75 +1.25 =3， 所 以 结果 是 正确 的 。 

下 面 ， 我 们 讨论 当 某 些 东 西 错 了 时 会 发 生 什么 。 

问 2: 用 (2.2) 格式 定点 数 表 示 法 表示 1.75,， 用 (1.3) 格式 定点 数 表示 法 表示 0.625， 把 两 个 数 相 
加 并 给 出 结果 。 

答 : 在 问题 1 中 1.75 已 经 被 表示 为 0111。 (1.3) 格式 定点 数 表 示 法 的 权 值 是 1，0.5，0. 25，0. 125 ， 
因此 把 0.625 分 解 为 0.5+0.125， 得 到 二 进 制 数 0101。 

接 下 来 执行 加 法 0111 +0101， 结 果 为 1100。 

但 是 我 们 并 不 知道 结果 用 什么 定点 数 格式 。 我 们 猜测 是 否 是 (2. 2) 格式 或 (1.3) 格式 ， 对 每 种 都 转 
换 为 十 进 制 值 看 一 下 。 

用 (2.2) 格式 时 结果 是 2+1=3, 用 (1.3) 格式 时 结果 是 1+0.5=1.5， 而 真正 的 结果 是 1.75 + 
0. 625 =2.375。 显 然 ， 这 不 匹配 任何 一 种 猜测 的 答案 。 

我 们 应 该 做 的 就 是 改变 其 中 的 一 个 ， 让 它们 有 相同 的 格式 ， 然 后 再 执行 加 法 。 

注意 : 你 看 到 这 两 个 例子 中 的 二 进 制 模式 是 相同 的 吗 ? 这 只 是 我 们 对 各 例子 中 不 同位 模式 的 解释 。 按 
这 种 方式 使 用 不 同 的 解释 ， 可 能 会 导致 相同 的 位 模式 有 多 重 意 义 一 一 但 用 于 执行 计算 的 硬件 并 不 需要 改变 。 [44 | 


2.7.2 定点 数 的 乘除 


在 乘法 的 情况 下 有 更 多 的 灵活 性 ， 操 作 数 可 以 有 不 同 的 定点 数 格式 ， 而 结果 的 定点 数 格式 

又 是 从 操作 数 的 格式 推导 出 来 的 : 
(m.n) x(p9g) = (m+p) x (n+g) 

显然 乘法 结果 的 位 数 是 两 个 乘 数 的 位 数 之 和 ， 这 一 结论 从 2. 5 节 中 我 们 已 经 了 解 的 乘法 器 硬 
件 结构 上 就 能 推断 出 来 。 

除法 会 较为 复杂 。 事 实 上 ， 执 行 除法 的 最 好 方式 是 : 先 去 掉 两 个 操作 数 的 小 数 点 ， 一 步 一 步 
地 将 小 数 点 逐 位 向 右 移 ， 直 到 它们 在 最 大 操作 数 的 最 低 有 效 位 后 面 ， 适 当 扩 大 了 较 小 的 操作 数 。 
然后 就 可 以 按照 标准 的 二 进 制 方式 相 除了 。 

框 2. 20 中 的 实例 曾 明 了 定点 数 除法 是 如 何 完成 的 。 
定点 数 除法 实例 

考虑 11.000 :01.00 (无 符号 数 )。 

它 和 3+1 一 样 没有 太 大 的 实际 意义 。 完 成 此 运算 的 第 一 步 是 将 小 数 点 向 右 移 一 个 位 置 : 

110. 00 +010.0 

这 样 不 够 ， 因 为 数字 中 仍然 包含 小 数 点 ， 所 以 重复 一 次 : 

1100. 0 :0100. 

这 还 不 够 ， 所 以 再 来 一 次 ， 作 为 1100. 0 移 除 小 数 点 的 副作用 ,0100 同时 被 扩大 ， 如 下 : 

11000. :01000. 

然后 按照 标准 二 进 制 除法 去 除 : 
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01000 | 11000 


继续 二 进 制 长 除法 : 
00011 


01000 | 11000 


一 1000 





一 0 一 一 
一 01000 


一 0 一 一 一 一 一 一 


[45] 结果 是 11， 就 像 3+1 的 值 为 3 一 样 ， 结 果 正 确 。 
观察 上 述 实例 ， 显 然 实际 的 除法 并 不 比 标 准 二 进 制 算法 复杂 ， 但 是 考虑 小 数 点 的 位 置 可 能 
会 有 问题 。 事 实 上 ， 它 需要 程序 员 小 心 编码 。 


2.8 浮 点 数 

浮 点 数 和 二 进 制 定点 数 格式 很 相似 ， 但 它们 更 灵活 ， 因 为 小 数 点 位 置 是 可 变 的 〈 作 为 数字 
本 身 的 一 部 分 存储 ) 。 正 是 这 种 灵活 性 使 得 浮 点 数 只 用 较 少 的 位 数 编码 就 能 够 表示 相当 大 范围 
的 值 。 


2.8.1 广义 浮 点 数 


一 个 浮 点 数 包含 尾数 $S〈 或 称 定 点 数 部 分 ) 和 指数 天 〈 或 称 寡 ) ， 也 可 能 有 一 个 符号 位 

(oo) ， 这样 ， 基 数 为 B 的 数 可 以 表示 为 : 
n=oxSxB’ 
或 者 如 果 更 正确 地 考虑 符号 ， 在 二 进 制 中 ，1 代表 负数 ，0 代表 正 数 ， 因 此 : 
n=(-1)” xSxB’ 

一 个 基数 为 10 的 例子 2. 3 x 10  ， 我 们 知道 它 就 是 2 300 000 的 一 种 科学 记 数 法 表示 。 其 实 这 
正 说 明了 浮 点 数 的 一 个 主要 优点 : 浮 点 数 通 常 写 出 来 会 更 短 (在 二 进 制 中 就 是 更 少 的 位 数 ) ， 相 
比较 于 这 个 数 实际 的 十 进 制 〈 或 者 二 进 制 ) 值 。 

在 二 进 制 中 就 是 8=2 而 不 是 10， 典 型 的 例子 如 01001111 x 2 这 样 的 数 ， 如 果 尾 数 
(01001111) 是 无 符号 数 ， 则 : 

01001111 x25 =79,, x 64,, =5056,, = 1001111000000 

其 中 下 标 10 表示 这 是 一 个 十 进 制 值 。 

当然 ， 最 终 的 值 和 把 尾数 进行 指数 次 移 位 后 的 值 是 一 样 的 (由 于 同样 的 原理 ,我 们 对 上 面 
基数 为 10 的 例子 中 加 了 5 个 0)。 

-通常 情况 下 ， 构 成 一 个 浮 点 数 (og,，S 和 EE) 的 所 有 位 都 存储 在 相同 的 位 置 ， 具有 方便 的 位 

宽 如 16、32、64 或 128 位 。 因 此 在 处 理 的 时 候 , 需要 有 位 级 的 操作 将 它们 从 一 个 整体 存储 分 离 
为 3 个 不 同 部 分 。 


2. 8.2 IEEE754 浮 点 标准 


虽然 有 多 种 可 能 的 浮 点 格式 ， 而 且 在 计算 史上 也 出 现 过 各 种 实现 例子 ， 但 产生 于 20 世纪 70 
年 代 的 正 EE754 已 经 成 为 到 目前 为 止 最 流行 的 标准 ， 被 所 有 主要 的 CPU 制造 商 采 用 。 行 业内 普 
L461 遍 认 为 ，IEEF754 是 一 个 深思 熟 虑 的 、 高 效 的 浮 点 格式 ， 从 而 得 到 高 度 重视 。 








第 2 章 基础 知识 


这 里 不 打算 描述 IEEE754 整个 标准 ， 但 我 们 将 介绍 一 些 较为 常见 的 功能 。 我 们 会 讨论 单 精 
度 和 双 精 度 格式 ， 分 别 存储 于 32 位 和 64 位 存储 空间 。 在 C 语言 程序 设计 中 ， 这 些 通常 对 应 为 
float 和 double 数据 类 型 ， 











名 称 位 宽 符号 位 og 宽 指数 五 位 宽 尾数 5S 位 宽 
单 精度 32 | 1 8 | 23 
双 精 度 64 1 11 52 





此 外 ， 在 中 间 计 算 阶 段 会 在 表示 中 加 入 其 他 位 (在 硬件 浮 点 单元 中 ) ， 以 确保 整体 精度 保持 
不 变 ， 这 将 在 后 面 第 2. 9. 3 节 介 绍 。 

除了 所 有 使 用 32 位 或 64 位 的 有 符号 尾数 和 指数 表示 外 ，IEEE754 格式 还 巧妙 地 表示 了 另外 
4 种 模式 ， 采 用 的 是 常规 数字 中 不 会 出 现 的 特殊 位 模式 。 如 下 表 所 示 ， 第 一 行 是 默认 模式 ， 也 称 
为 “规格 化 ”: 































名 称 E 
规格 化 数 1 或 0 不 是 全 零 也 不 是 全 1 任意 数 
零 1 或 0 全 零 全 零 
无 穷 大 1 或 0 全 1 全 零 
不 是 一 个 数 (NaN) 1 或 0 全 1 非 零 
非 规格 化 数 全 零 














当 写 一 个 符合 正 EE754 标准 的 数 时 ， 我 们 通常 从 左 向 右 按 顺 序 写 每 一 位 (gg,，E，S) ， 如 下 : 
Le TE | 5 
其 中 ， 整 个 框 表示 一 个 32 位 或 64 位 的 二 进 制 数 ,包含 一 个 IEEE754 标准 的 值 。 本 书 中 给 出 的 所 
有 例子 都 只 使 用 32 位 单 精度 以 节省 纸张 。 
2. 8. 3 IEEE754 标准 模式 


在 随后 的 讨论 中 ,我 们 将 用 $ 来 表示 无 符号 定点 数 〈0.23) 或 (0.52) 格式 的 尾数 位 模式 ， 
用 五 来 表示 无 符号 二 进 制 补 码 格式 的 指数 位 模式 ， 用 o 表示 符号 。 请 注意 ， 他 们 在 正 EE754 标 
准 的 5 个 模式 中 含义 不 同 。 
这 样 一 个 正 EE754 标准 的 数字 书写 格式 为 : 
[0 T 1000000 [ 11100000000000000000000000 


其 中 o=0， 因 此 是 正 号 ， 














E=128 +32+16 +2 =178 
S=0.5 +0.25 +0., 125 =0, 875 
我 们 将 始终 保持 这 个 EE 和 5 的 命名 约定 。 因 此 ， 在 后 面 的 文字 中 当 提 到 “尾数 ”和 “指数 ” 
时 是 用 来 表示 所 写 位 模式 的 含义 ， 而 $ 和 五 是 表示 所 写 的 二 进 制 值 。 
例如 ，5 的 值 为 10110010b = 0. 875d4， 可 能 意味 着 尾数 是 0. 875 或 是 1. 875 或 是 其 他 不 相关 
(不 是 一 个 数 ，NaN) 的 值 。 后 面 将 会 看 到 ， 实 际 所 写 的 位 模式 的 含义 会 随 着 IEEE754 的 5 个 模 
式 的 变化 而 改变 。 
2.8.3.1 规格 化 模式 
大 部 分 非 零 数字 都 采用 这 种 数字 格式 。 依 据 这 种 模式 的 数字 格式 可 以 真正 地 被 称 为 “ 浮 点 
数 ”。 在 此 模式 下 ， 数 字 由 下 面 的 位 模式 (og,，E，5) 表示 : 
n=(-1)” x(l+S) x 2 
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这 里 ， 首 先 我 们 看 到 指数 是 用 一 个 移 127 的 移 码 表 示 法 (在 2.3.5 节 中 已 介绍 ); 其 次 ， 尾数 需 
要 加 上 个 “1”， 也 就 是 说 ， 尾 数 等 于 $+1， 其 中 5 如 我 们 所 知 ， 是 以 〈0. 23) 格式 书写 的 。 
这 可 能 会 非常 混乱 ， 所 以 我 们 回 到 IEEE754 标准 数 的 例子 ， 见 框 2 21 ， 然 后 在 框 2.22 中 给 
出 第 二 个 例子 。 
IEEE754 规格 化 模式 实例 1 
下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 
| 0 | 10110010 11100000000000000000000000 


首先 ， 注 意 到 =0， 因 此 其 值 是 正 号 。 再 看 这 个 数 是 按照 规格 化 模式 写 的 ， 因 此 : 
E=128+32+16+2=178 
S=0.5+0.25 +0.125 =0. 875 
使 用 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 
n= (1)" x (1 +0.875) x 2 
= 1. 875 x 25 
= 4.222 x 105 
如 我 们 所 看 到 的 ， 例 子 的 结果 是 一 个 很 大 的 数 ， 说 明 浮 点 格式 能 够 表示 一 些 相 当 大 的 值 。 
1EEE754 规格 化 模式 实例 2 
下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 



































[ 1 | oooollo0 01010000000000000000000000 
此 例 中 0o=1， 因 此 是 负数 ， 从 剩余 的 位 模式 得 到 : 
E=8+4=12 


S=1/4+1/16 =0. 3125 
使 用 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 
n= (-1)' x (1 +0.3125) x2°7” 
=—1.3125 x 2 
= - 3. 1597 x 10™ 

这 次 结果 是 一 个 非常 小 的 数 ， 这 说 明 浮 点 数 可 以 表示 一 个 足够 大 的 数 的 范围 ， 而 且 通 过 所 表示 的 数 的 
范围 (2. 8.4 节 将 进一步 阐述 ) ， 保 证 了 精度 。 

我 们 例子 中 很 多 数 都 是 尾部 有 一 长 串 零 。 我 们 通过 考察 将 其 中 一 个 尾部 的 最 低 有 效 位 从 
“0” 变 为 “1” 会 导致 其 结果 有 什么 不 同 ,来 获得 关于 IEEE754 基本 精度 的 一 个 想法 。 框 2. 23 
提供 了 一 个 指导 ， 告 诉 我 们 如 何 去 测 试 这 个 效果 。 
读者 练习 

请 注意 ， 在 上 述 两 个 实例 中 ，23 位 长 的 尾数 都 是 以 几 个 “1” 开 始 ， 却 以 一 长 串 “0” 在 后 面 结 束 。 这 
样 做 是 为 了 减少 计算 尾数 值 的 难度 ， 因 为 在 (0.23) 定点 数 格式 中 ， 左 手边 的 权 值 比较 容易 处 理 ， 都 是 值 
如 0.5、0.25、0. 125 等 。 而 实际 上 ， 当 我 们 向 右 移动 时 ， 位 的 权 值 迅速 变 得 很 难 写 下 来 。 

本 例 的 练习 就 是 重复 框 2.21 和 框 2.22 中 的 一 个 实例 ， 但 是 将 尾数 的 最 低 有 效 位 设 为 1。 如 果 尾 数 最 高 
有 效 位 ( 即 第 23 位 ) 的 权 值 是 2-' (0.5)， 下 一 位 ( 即 第 22 位 ) 的 权 值 是 2……(0.25)， 那 么 第 0 位 的 权 值 
是 多 少 ? 

当 把 这 个 加 到 结果 中 时 ， 和 我 们 书面 写 下 来 的 结果 有 什么 不 同 呢 ? 

现在 真正 的 问题 是 ， 这 是 否 意味 着 IEEE754 中 浮 点 数 的 精度 呢 ? 

2. 8. 3.2 非 规格 化 模式 

有 些 数 的 绝对 值 非常 小 ， 以 至 于 正 EE754 无 法 表示 它们 。 广 义 的 浮 点 数 会 把 这 样 的 值 含 人 

为 零 ， 但 IEEE754 有 一 个 特殊 的 非 规格 化 模式 ， 它 允许 所 表示 数 的 绝对 值 逐 渐变 小 直到 零 一 一 











第 2 章 基础 知识 


优雅 地 降低 精度 直到 达到 零 。 

非 规格 化 模式 实际 上 并 不 是 浮 点 数 ， 因 为 指数 〈( 数 的 一 部 分 ， 用 来 指明 小 数 点 位 置 ) 全 部 
设置 为 零 ， 所 以 不 再 “ 浮 "。 然 而 ， 这 种 模式 下 ， 人 允许 扩展 范围 是 正 EE754 标准 数 的 重要 优势 。 

该 模式 下 ， 位 模式 (cc, 已，$) 表示 的 数字 如 下 : 

=(-1)"xSx2-52 

首先 ， 可 以 看 到 指数 是 固定 值 ， 上 面 已 经 提 到 过 。 其 次 ， 我 们 不 再 需要 给 尾数 加 “1”。 当 
我 们 在 2. 8. 4 节 研 究 数 的 范围 时 ， 会 发 现 这 样 做 的 原因 很 明显 。 

由 于 指数 固定 ， 位 模式 中 指数 总 是 全 零 ， 而 尾数 不 是 零 。 框 2. 24 中 的 实例 将 有 助 于 澄清 任 
何 混淆 。 

由 于 非 规格 化 数 向 下 扩展 了 IEEE754 的 范围 ， 因此， 其 绝对 值 总 是 很 小 。 
IEEE754 非 规格 化 模式 实例 

下 面 给 出 了 一 个 用 IEEE754 标准 表示 的 二 进 制 值 ， 请 判断 其 十 进 制 值 。 

0 00000000 11010000000000000000000000 


首先 ， 我 们 注意 到 og =0， 此 位 模式 表示 的 数 是 正 数 。 
EE=0， 因 此 我 们 查 2.8.2 节 中 的 模式 表 ， 看 我 们 处 理 的 是 一 个 零 还 是 一 个 非 规格 化 数 。 我 们 实际 上 需 
要 测试 尾数 来 决定 〈 零 必须 尾数 也 为 零 ， 否 则 是 一 个 非 规格 化 数 ) 。 
查看 尾数 ， 我 们 看 到 是 非 零 值 ， 因 此 按照 非 规格 化 模式 数 如 下 : 
S = 0.5 +0.25 +0.0625 = 0.8125 
使 用 非 规格 化 模式 数 的 公式 ， 我 们 可 以 计算 其 值 ， 过 程 如 下 : 
n= (-1)° x0.8125 x2-52 
= 9. 5509 x 10 2 








2. 8. 3.3 其 他 模式 数 

零 、 无 穷 大 和 NaN 由 其 特殊 的 位 模式 确定 。 这 些 都 可 以 是 正 数 或 负数 ， 在 硬件 上 需要 特殊 
的 处 理 〈( 见 框 2.25) 。 
IEEE754 无 穷 大 以 及 其 他 “ 数 ” 

无 穷 大 是 最 常 产 生 的 数 ， 通 过 除 以 零 或 一 个 规格 化 模式 的 溢出 产生 。 无 穷 大 可 以 是 正 也 可 以 是 负 ， 用 
来 指明 溢出 发 生 在 哪 一 边 。 

NaN， 表 示 不 是 一 个 数 ， 由 一 个 未 定义 的 数学 运算 产生 ， 如 无 穷 大 乘 以 零 ， 或 者 零 除 以 零 。 

零 本 身 可 能 表示 一 个 运算 确实 结果 为 零 ， 例 如 (2 -2)， 或 者 由 一 个 下 滋 导 致 ， 当 结果 太 小 甚至 是 非 
规格 化 模式 也 无 法 表示 时 ， 这 种 情况 下 ， 正 负 零 的 意义 是 说 明 这 个 不 能 表示 的 数 是 略 高 于 零 还 是 略 低 于 零 。 


2. 8.4 IEEE754 数 的 范围 


理解 [EEE754 的 一 个 很 好 的 方式 就 是 构建 一 个 数 轴 ， 它 表示 了 这 种 格式 下 数 的 可 能 范围 。 
下 面 这 个 数 轴 描述 了 无 符号 8 位 数字 的 表示 范围 ， 其 具体 包括 : 


| 最 小 绝对 值 = 最 人 多 人 = 
0 255 











< 


.精度 相生 两 数 之 间 的 距离 = 


有 三 个 参数 来 描述 此 格式 。 第 一 个 是 绝对 值 最 小 的 数 (0000 0000) ， 第 二 个 是 绝对 值 最 大 的 
数 (1111 1111) ， 最 后 是 精度 。 精 度 定 义 为 在 此 格式 下 相 邻 两 个 数 之 间 的 距离 。 在 此 处 ， 数 是 按 
照 整数 向 上 数 的 : 1， 2，3，4，5，…，255， 所 以 步 长 就 是 1。 

现在 ， 我 们 用 同样 的 方式 为 正 EE754 格式 定义 一 个 数 轴 。 为 了 简化 问题 ， 我 们 只 考虑 正 数 
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并 且 只 考虑 单 精 度 的 情况 ， 但 我 们 对 规格 化 和 非 规 格 化 两 种 模式 都 会 顾及 。 
规格 化 模式 要 求 E 不 能 全 零 或 全 1, 但 5 可 以 是 任何 值 ， 其 表示 的 实际 值 如 下 : 
n=(-1)" x(l+S) x2 
如 果 我 们 寻找 绝对 值 最 小 的 规格 化 模式 数 ， 需 要 找到 最 小 5 和 最 小 E 的 可 能 值 。 显 然 最 小 的 
S$ 是 0, 但 最 小 的 不 能 是 0 (因为 0 意味 着 非 规 格 化 模式 或 是 零 )， 因 此 只 能 是 00000001， 
| 0 | 00000001 TT 00000000000000000000000000 | 


把 这 两 个 值 放 到 公式 中 ,假设 是 正 数 ， 那 么 : 
min norm = (1 +0) x2 =1x2. = 1.175 x10 

下 面 寻找 绝对 值 最 大 的 数 ， 我 们 知道 $ 可 以 是 任何 值 ， 但 5 不 能 是 11111111 (因为 那 意味 
着 无 穷 大 或 NaN 模式 ) ， 因 此 最 大 的 为 11111110， 最 大 的 5 是 全 1。 

先 看 的 值 等 于 254。 然 而 5 的 值 稍微 难 算 一 些 : 

111 1111 1111 1111 1111 1111 

但 是 记 住 这 是 (0.23) 格式 ， 且 该 值 略 小 于 1.0， 我们 看 到 如 果 在 最 低位 加 一 个 二 进 制 1， 
那么 这 个 字 中 所 有 的 二 进 制 1 都 通过 进位 变 成 0， 因 为 进位 传递 经 过 了 整个 加 法 链 ， 得 到 值 
如 下 : 

111 1111 1111 1111 1111 1111 

+000 0000 0000 0000 0000 0001 

= 1000 0000 0000 0000 0000 0000 

基于 这 个 事实 ， 且 此 处 有 23 位， 最 高 位 的 位 权 是 2 ， 第 二 高 位 的 位 权 是 2“”， 依 次 类 推 ， 
第 23 位 最 高 位 (实际 也 是 最 低位 ) 的 位 权 一 定 是 2 ”。 

所 以 ，$ 的 值 一 定 是 (1.0 -2 一 ) ， 因 为 把 2 加 到 5 上 将 使 其 等 于 1.0: 

0 111i11110 | 11111111111111111111111 | 
把 它们 放 到 公式 中 ， 得 到 : 
max norm = (1 +1 -23) x2”” = (2-23) x22 = 3.403 x 10” 

数字 的 精度 如 何 呢 ? 如 果 我 们 看 一 下 得 到 的 这 个 数字 ， 就 会 发 现 精度 并 不 是 常数 。 最 小 位 始 
终 是 指数 所 表示 范围 的 2 一 倍 。 

最 终 ， 规 格 化 数 的 表示 范围 如 下 : 


最 小 值 1.175 x 10 
TT ei 


精度 〈 相 邻 两 数 之 间 的 距离 ) = 指数 所 表示 范围 的 2 了 3 倍 ” 


ee A ~ 
由 于 符号 位 只 改变 符号 ， 并 不 影响 绝对 值 ， 因 此 负数 的 表示 范围 一 定 是 一 样 的 。 
非 规格 化 模式 可 以 用 类 似 的 方法 处 理 ， 尽 管 其 指数 定义 为 全 零 ， 其 表示 的 值 如 下 : 

n=(-1)” xSx2 
注意 尾数 不 允许 是 零 ， 所 以 最 小 的 非 规 格 化 数 就 是 把 尾数 的 最 低位 置 1: 
0 00000000 00000000000000000000001 
因此 根据 介绍 规格 化 模式 时 对 最 大 值 的 讨论 可 知 2 一 的 值 ， 公 式 变 成 : 
min denorm = 22 x2-2% =2- = 1.401 x 10™ 
至 于 非 规格 化 数 的 最 大 值 ， 很 简单 就 是 $ 为 最 大 值 时 所 表示 的 数 。 查 看 2. 8. 2 节 中 的 模式 表 
可 知 其 为 全 1: 





























| 最 大 值 3403x10™ | 
> | 


ee ee 4 
i 
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再 次 使 用 规格 化 最 大 值 情况 下 的 结论 ， 最 大 值 有 (1 -2 一) 的 意义 ， 其 值 为 : 


max denorm = (1 ~- 23) x2 =2-9 =1.175 x10 


现在 推断 一 下 数 的 精度 : 本 例 中 ， 由 于 指数 是 固定 的 ， 精 度 仅 由 尾数 最 低位 值 乘 以 指数 决定 : 


2 -和 X2 -1 


< > 











把 之 前 所 有 的 精度 范围 放 在 一起， 可 以 看 到 IEEE754 单 精 度数 的 巨大 表示 范围 。 请 注意 这 
只 是 实数 轴 中 正 数 的 那 一 半 ， 负 数 那 边 同样 。 
| 非 规格 化 数 

0 1.401 x 10™ L175x10™ 1.175x1038 ; 3.403x10% 

- ; | -一 一 一 一 一 一 一 一 一 

五 一 一 








> 


精度 2 一 x 2-1% 精度 2 x 2E-127 





当 我 们 想 把 一 个 十 进 制 数 转换 成 正 EE754 的 浮 点 数 时 ， 精 度 表 很 有 帮助 ， 它 告诉 我 们 该 使 
用 哪 一 种 模式 ， 是 零 、 非 规格 化 数 、 规 格 化 数 还 是 无 穷 大 。 为 了 阐明 这 个 问题 ,下 面 在 框 2 26 
中 给 出 一 个 十 进 制 转换 为 浮 点 数 的 实例 。 
在 2.9.1 节 和 2.9.2 节 还 会 有 更 多 这 种 转换 的 例子 。 
证 ”实例 : 十 进 制 数 到 浮 点 数 的 转换 
问 : 写 出 在 IEEE754 单 精度 格式 下 的 十 进 制 数 11 的 值 
答 : 在 2.8.4 节 中 查找 我 们 的 精度 表 ， 可 以 看 到 此 值 正好 位 于 规格 化 数 的 范围 里 ， 因 此 查找 规格 化 数 形式 : 
n=(-1)" x(l+S) x22 2 
知道 了 这 个 ， 首 先 需 要 将 十 进 制 数 N=11 写成 4x2” 的 格式 ， 其 中 4 的 值 等 于 (1 +S)。 已 知 1>4< 
2, 0 宕 S11， 可 能 最 简单 的 方法 就 是 反复 对 入 除 以 2， 直 到 得 到 一 个 介 于 1 和 2 之 间 的 4 值 : 得 到 一 个 序 
列 ，11 除 以 2 后 是 5.5, 之 后 是 2.75， 最 后 是 1.375。 
故 A4=1.375， 因 此 和 N=1.375 x2*, 无 需 太 多 的 运算 ，,B 由 原始 数 除 以 2 的 次 数 得 到 ， 在 此 例 中 是 3。 
因此 数 为 : n=( 一 1)" x(1.375) x2;。 
考察 规格 化 数 公式 ， 需 要 : 
or=0 
E = 130( 因 为 E-127 =3) 
S = 0.375( 因 为 1 +S = 1.375) 
寻求 巨 的 二 进 制 位 模式 ,为 128 +2 即 10000010， 由 于 0.375 很 容易 表示 为 0.25 +0.125， 故 整个 数 为 : 





| 0 | 10000010 | 01100000000000000000000 








2.9 ” 浮 点 数 处 理 


到 目前 为 止 我 们 只 考察 了 浮 点 数 的 表示 ， 特 别 是 正 EE754 标准 的 表示 。 只 有 能 够 通过 对 这 
种 数据 的 处 理 来 完成 任务 ， 这 种 表示 方法 才 是 有 用 的 ， 因 此 这 里 对 此 进一步 进行 讨论 。 

在 许多 计算 机 系统 中 ， 浮 点 数 处 理 是 通过 使 用 专门 硬件 来 完成 的 ， 称 为 浮 点 协 处 理 器 或 肖 
点 运算 单元 (FPU) 。 事 实 上 ， 尽 管 这 个 部 件 往往 存在 于 商业 CPU 的 芯片 内 部 ， 但 其 通常 还 是 作 
为 协 处 理 器 访问 的 ， 而 不 是 主 处 理 器 的 一 部 分 。 

对 于 那些 没有 浮 点 运算 硬件 支持 的 计算 机 来 说 ， 广 泛 使 用 软件 仿真 ， 除 了 执行 时 间 较 长 
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(参见 4.6.1 节 ) 外 ， 用 户 可 能 并 不 知道 浮 点 计算 是 在 哪里 进行 的 ， 不 管 是 硬件 还 是 软件 。 大 多 
数 浮 点 支持 (硬件 或 软件 ) 都 是 基于 IEEE754 标准 上 的 ， 虽 然 偶尔 有 软件 选项 ， 允 许 以 牺牲 
IEEE754 标准 的 准确 性 为 代价 来 提高 计算 速度 。 

JEEE754 数 的 处 理 过 程 包括 以 下 步骤 : 

1. 接收 操作 数 ; 
. 检查 数字 格式 模式 ， 如 果 是 固定 值 ， 则 立即 从 查找 表 中 产生 结果 ; 
. 如 果 需 要 ， 变 换 指数 和 尾数 ; 
.执行 运算 操作 ; 
.结果 被 转换 回合 法 的 下 FE754 数字 格式 。 保 持 尾数 最 左 侧 的 最 高 位 为 1， 因 为 这 样 可 以 获 
得 最 大 精度 。 


2. 9. 1 IEEE754 数 的 加 减 运算 


在 广义 浮 点 数 中 ， 执 行 加 减 运 算 之 前 指数 的 值 必 须 是 相同 的 。 这 类 似 于 在 定点 数 格式 加 法 
(nn.m) + (r,s) 中 ， 进 行 加 运算 之 前 应 确保 n=r 且 m=s， 正 如 我 们 在 2.7.1 节 看 到 的 那样 。 

例如 ， 考 察 十 进 制 数 0. 824 x 10” +0.992 x 10" 。 为 了 使 运算 简单 ， 必 须 让 两 个 指数 相同 ， 然 
后 就 可 以 简单 地 进行 尾数 相 加 了 。 但 是 我 们 是 把 它们 都 转换 为 10”、10 ,还 是 中 间 的 某 个 值 
如 103? ， 

为 回答 这 个 问题 ， 让 我 们 首先 看 一 下 如 何 将 指数 的 阶 向 下 转换 。 我 们 知道 10’ 的 值 等 于 10 x 
10  ，10 ”的 值 等 于 100 x 10” ， 由 于 我 们 在 谈论 十 进 制 ， 所 以 每 次 降低 指数 的 阶 时 都 是 给 尾数 乘 以 
基数 值 10。 在 我 们 的 计算 中 执行 后 得 到 和 如 下 : 

0. 824 x 10? +99. 2 x 10* 
相反 向 上 转换 为 10” 的 值 等 于 0. 01 x 10  ， 因 此 和 为 : 
0. 008 24 x 104 +0.992 x 104 

在 纸 上 ， 以 十 进 制 表 示 ， 这 两 个 指数 的 值 是 相同 的 ， 但 在 二 进 制 中 ,在 人 硬件 中 ， 并 不 是 如 
此 。 因 此 问题 仍然 是 : 我 们 采取 哪个 操作 ? 是 转换 较 小 的 指数 以 匹配 较 大 的 ， 还 是 把 较 大 的 指数 
转换 为 较 小 的 ， 还 是 转换 为 中 间 的 某 个 ? 

答案 是 ， 首 先 ， 我 们 并 不 愿意 把 两 个 数 都 转换 ， 因 为 那样 会 带 来 额外 的 工作 ; 其 次 ， 考 虑 二 
进 制 位 ， 我 们 知道 把 一 个 指数 变 小 就 需要 相应 地 把 尾数 变 大 ， 显 然 尾数 变 得 太 大 时 会 有 溢出 的 
风险 。 因 此 我 们 选择 从 不 增 大 尾数 ， 这 意味 着 我 们 不 得 不 增加 较 小 的 那个 指数 ， 并 把 其 相应 的 尾 


数 变 小 : 





LN 人 


0. 008 24 x104 +0. 992 x 10° 

这 就 是 所 谓 的 指数 等 值 或 归 一 化 操作 。 稍 后 ， 我 们 将 看 到 ， 有 一 些 方法 能 够 帮助 防止 尾数 在 
此 变换 过 程 中 向 下 舍 人 为 零 。 

一 旦 指数 相等 ， 我 们 就 可 以 执行 尾数 相 加 : 

0. 008 24 x 10° + 0.992 x 104 = (0.008 24 + 0.992) x 10° 

IEEE754 的 加 减 运算 类 似 于 十 进 制 情况 ， 只 是 因为 基数 是 2， 将 其 中 一 个 指数 增加 到 和 另 一 
个 指数 相同 的 操作 会 导致 这 个 数 的 尾数 以 2 为 因子 递减 。 在 二 进 制 中 除 以 2 可 以 通过 右 移 一 位 
完成 。 

还 有 一 个 因素 我 们 必须 考虑 到 ， 就 是 结果 的 格式 。 注 意 到 规格 化 模式 中 尾数 不 能 大 于 1， 因 
此 ， 如 果 尾 数 的 计算 结果 太 大 ， 我 们 必须 右 移 尾 数 并 相应 地 增加 指数 。 类 似 地 ， 如 果 尾 数 变 小 ， 
则 必须 左 移 尾数 并 相应 地 减 小 其 指数 。 这 些 因 素 我 们 将 通过 框 2. 27 中 的 实例 阐明 。 

现在 我 们 进一步 看 这 个 过 程 。 知 道 了 如 何在 执行 运算 之 前 把 指数 归 一 化 ， 可 以 结合 我 们 掌 
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握 的 IEEE754 格式 知识 ， 直 接 在 IEEE754 格式 上 执行 这 些 运算 。 
参考 框 2. 27 中 的 实例 ， 我 们 现在 可 以 写 下 数 的 IEEE754 位 模式 ， 并 在 框 2. 28 中 进行 转换 。 
减法 同 加 法 相似 ， 所 有 的 步骤 都 相同 ， 除 了 尾数 是 对 应 相 减 外 。 当 然 ， 我 们 还 要 考虑 结果 尾 
数 的 溢出 问题 ， 因 为 可 能 会 进行 两 个 负数 相 减 ， 那 么 结果 会 大 于 任何 一 个 原来 的 操作 数 。 
浮 点 运算 实例 
问 : 将 十 进 制 值 20 和 120 转换 为 IEEE754 格式 ,将 它们 相 加 并 将 结果 转换 为 十 进 制 。 
答 : 在 2.8.4 节 中 查找 我 们 的 精度 表 ， 发 现 两 个 值 都 位 于 IEEE754 的 规格 化 数 范围 内 ,但 最 初 我 们 只 考 
虑 通用 的 4 x2? 格式 ， 这 里 并 不 关注 确切 的 IEEE754 位 模式 。 只 是 简单 记 住 4=(1+5) 和 B=(E-127)。 
先 从 20 开始 ， 反 复 除 以 2 直到 结果 在 1 和 2 之 间 : 10，5，2.5，1.25， 因 此 4=1.25。 共 除了 4 次 ， 
故 B=4。 
120 同样 ， 除 以 2 后 依次 为 : 60, 30，15, 7.5，3.75，1.875， 故 4=1.87$。 除 了 6 次 ， 所 以 有 =6。 
将 结果 放 到 下 表 中 ,在 这 一 阶段 我 们 并 不 需要 得 出 五 和 3$ 的 位 模式 ， 我 们 更 关注 它们 的 表示 : 






































o B | 4 二 进 制 什 十 进 制 什 
0 4 1.25 1. 25 x24 20 
0 6 1. 875 1. 875 x25 120 








下 一 步 是 指数 归 一 化 。 如 正文 中 描述 的 ， 让 它们 都 等 于 较 大 的 指数 值 ， 把 较 小 的 数 对 应 的 尾数 适当 减 小 。 
因此 ，1.25 x24 变 成 0.625 x25， 再 变 成 0.3125 x24， 重 新 形成 下 表 中 的 操作 数 : 
































o B A 二 进 制 什 十 进 制 值 | 

0 6 0. 3125 | 0. 3125 x25 20 | 

0 6 1. 875 | 1. 875 x26 120 | 
由 于 两 个 指数 相等 ， 现 在 可 以 进行 尾数 相 加 ， 进 而 得 到 结果 如 下 : 

o | BB 4 二 进 制 值 十 进 制 值 

0 | 6 2. 1875 2. 1875 x 26 ? | 








但 是 ， 这 不 是 IEEE754 的 合法 表示 ， 因 为 尾数 值 太 大 了 。 还 记得 公式 中 的 (1 +$S) 吗 ? 是 的 , 4=(1+S) <2 是 
我 们 的 约束 。 如 果 两 个 操作 数 都 是 IEEE754 兼容 的 ， 那 么 我 们 应 该 能 够 保证 不 需要 移 位 超过 一 位 以 上 就 能 
正确 表示 这 个 数 ， 因 此 我 们 将 4 的 值 右 移 一 个 二 进 制 位 ， 并 增加 B 的 值 : 

og | B A | 
1. 09375 | 





二 进 制 值 十 进 制 值 
1.09375 x27 ? 























用 计算 器 检查 可 知 ，1. 09375 x2’ 的 确 是 正确 答案 ， 其 十 进 制 为 140。 
IEEE754 运算 实例 
首先 ， 看 规格 化 模式 公式 : 
n=(-1)" x(l+5S) x22 2 
以 十 进 制 的 20 为 例 ， 在 前 面 的 实例 中 ， 它 被 表示 为 1.25 x2 。 带 入 公式 中 得 到 (1+S) =1.25， 则 8= 
0.25; (天 -127) =4， 则 瓦 =131。 表 示 如 下 : 








| 0 | 10000011 | | 01000000000000000000000 | | 
十 进 制 的 120 是 1.875x2s， 因此 S=0.875 且 E=133。 
| 0 | 1ooo0l0L | wi00000000000000000000 | 





加 法 的 结果 是 1.09375 x2”， 因 此 S$S=0.09375 且 E=134。 
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由 于 0.09375 不 是 一 个 明显 的 2 的 和 寡 的 定点 数 ， 我 们 可 以 使 用 车 通 的 方法 来 确定 位 模式 。 在 此 ， 我 们 
不 断 地 乘 以 值 2， 当 结果 等 于 或 大 于 1 时 减 去 1， 当 余下 数 为 零 时 结束 : 
0: 0. 09375 
1: 0.0187 
2: 0. 375 
3: 0.75 
4: 1.5-1=0.5 
5: 1-1=0 
我 们 在 第 4 和 5 次 迭代 时 减 掉 了 1， 据 此 将 左 起 第 4 和 5 位 设置 为 1。 事 实 上 ， 我 们 也 可 以 用 这 种 方法 计算 
最 前 面 的 两 个 数 ， 但 它们 太 简单 了 : 

[1 600060000000000000 一 一 一 





2.9.2 ”IEEE754 数 的 乘除 法 


对 于 乘法 和 除法 运算 ， 我 们 不 需要 先 规格 化 操作 数 ， 但 我 们 需要 对 这 两 个 数 进行 两 个 计算 ; 
一 个 是 对 尾数 的 ; 一 个 是 对 指数 的 。 下 面 是 基 为 B 的 数 的 运算 关系 : 
(AxB°)x (DxB’) = (AxD) x B® 
(A xB°)/(DxB) = (A/D) x B'S® 
以 一 个 十 进 制 数 为 例 说 明 此 点 : 
(0. 824 x 102) x (0.992 x 10*) = (0.824 x 0.992) x 102 = 0. 817 408 x 10° 
这 里 还 是 有 一 个 因素 要 考虑 ， 在 正 EE754 格式 下 ， 结果 必 须 转换 为 正确 的 表示 格式 ， 且 应 
检查 是 否 为 特殊 结果 值 ( 零 、 无 穷 大 、NaN)。 


2. 9. 3 IEEE754 中 间 格 式 


虽然 在 一 个 特定 的 IEEE754 标准 计算 中 其 输入 输出 是 EEE754 标准 格式 的 操作 数 ， 但 还 是 
会 出 现 输出 结果 数字 不 正确 的 情况 ， 除 非 在 计算 中 有 非常 高 的 精度 。 一 个 9 位 减法 的 小 倒 子 将 说 
明 这 点 : 
1.0000 0000 x2' A 
-1.1lllillll x2 B 
在 我 们 进行 减法 之 前 ,仍然 有 必要 把 这 两 个 数 规格 化 为 相同 的 指数 ， 我 们 通过 增加 较 小 的 
指数 来 完成 ， 正 如 我 们 在 2. 9. 1 节 所 做 的 那样 : 
1.00000000  x2: A 
-0.11111lI1 x2 B 
现在 我 们 可 以 进行 计算 ,结果 如 下 : 


0. 0000 0001 x2! C 
然后 把 尾数 尽量 左 移 : 
1. 0000 0000 x2 


让 我 们 看 一 下 实际 使 用 的 几 个 数字 。 操 作 数 A 的 值 为 2.0， 操 作 数 B 的 值 为 (2.0 -2 ) 即 
十 进 制 的 1.996 093 75 。 因 此 结果 应 该 是 : 
2. 0 -1. 996 093 75 =0, 003 906 25 
然而 ， 我 们 计算 的 结果 是 1x2 ”或 0. 007 812 5， 一 定 是 哪里 出 了 问题 。 
现在 我 们 重新 计算 ,但 这 次 在 中 间 阶 段 加 上 一 个 所 谓 的 看 守 位 (guard bit) 。 通 过 在 最 低位 
这 边 增加 一 位 ， 有 效 地 扩展 了 尾数 的 长 度 。 我 们 从 规格 化 数字 这 点 重新 开始 ， 注 意 额外 的 这 
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一 位 : 
1.000000000 x2' A 
-Ll1lll1llli0 x2 B 
接 下 来 规格 化 指数 ， 将 B 的 尾数 右 移 一 位 时 ， 其 最 低位 移 到 看 守 位 : 
1.000000000 x2'+ A 
-0.1lll1lllll x2 8B 
减法 后 的 结果 如 下 : 
0. 0000 0000 1 x2' 5C 
再 把 尾数 尽量 左 移 : 
1. 0000 0000 0 x2 
注意 C 这 一 行 ， 这 次 其 为 1 的 最 高 位 是 看 守 位 ， 而 之 前 是 在 前 一 位 。 规 格 化 值 为 1 x2 一 或 
0. 000 390 65 ， 这 次 结果 正确 。 
尽管 这 个 例子 示意 了 一 般 的 8 位 浮 点 数 ， 但 对 IEEE754 数 来 说 规则 是 相同 的 。 
上 面 的 例子 显示 了 减法 中 由 于 精度 丢失 错误 导致 的 结果 错误 。 当 然 同样 的 错误 也 可 能 会 发 
生 在 加 法 中 ， 因 为 A~B 和 A+(-B) 是 一 样 的 。 但 在 乘法 和 除法 中 也 会 发 生 吗 ? 这 个 留 给 读者 
作为 练习 ， 请 试 着 找 出 一 个 简单 例子 来 说 明 这 个 问题 。 
在 IEEE754 术语 中 ， 用 到 不 止 一 个 看 守 位 ， 这 个 方法 称 为 扩展 中 间 格 式 ， 由 下 面 的 位 宽 进 
行 标准 化 : 








名 称 位 宽 符号 位 位 宽 指数 位 宽 尾数 位 宽 
扩展 单 精度 43 1 11 31 
扩展 双 精 度 79 1 15 63 


显然 用 计算 机 去 处 理 43 位 或 79 位 的 数字 比较 题 众 ， 因 为 计算 机 是 基于 8 位 一 组 的 二 进 制 数 
字 尺 寸 的 ， 但 这 通常 并 不 是 问题 ， 因 为 扩展 中 间 格 式 是 设计 用 于 硬件 浮 点 运算 单元 的 。 输 入 操作 
数 和 输出 操作 数 仍然 是 32 位 或 64 位 的 。 


2.9.4 使 入 


有 时 ,为 了 把 一 个 扩展 中 间 值 表示 成 想 要 的 输出 格式 ,需要 对 其 进行 合 和 信 。 其 他 情况 如 从 双 
精度 格式 变 为 单 精度 格式 时 也 可 能 需要 舍 和 信 。 有 时 舍 人 是 定点 数 和 学 点 数 计算 所 必需 的 。 

有 不 止 一 种 方法 可 以 完成 数字 的 舍 人 ， 在 操作 系统 控制 下 ， 许 多 计算 机 系统 都 支持 其 中 的 
一 种 或 多 种 : 

。 舍 人 到 最 接近 的 〈 最 常用 ) 一 一 舍 人 到 最 接近 的 表示 值 ， 如 果 两 个 值 都 一 样 近 ， 上 默认 爹 

和 人 为 LSB =0 的 那个 值 。 例 如 ，1.1 会 人 到 1, 1.9 会 人 到 2,1.5 舍 人 到 2。 

。 向 上 舍 人 一 一 合 入 到 更 大 的 一 个 数 ， 例 如 -1.2 舍 人 到 -1, 2.2 舍 人 到 3。 

。 向 下 伟人 一 一 伟人 到 更 小 的 一 个 数 ， 例 如 -1.2 售 人 到 -2,，2.2 舍 人 到 2。 

。 向 零 舍 人 一 一 相当 于 始终 截断 要 舍 人 的 部 分 , 例如 -1.2 舍 人 到 -1, 2.2 舍 人 到 2。 

对 于 非常 高 精度 的 计算 ， 可 以 对 每 个 计算 执行 两 次 ， 一 次 向 上 舍 入 ,一 次 向 下 舍 人 。 两 次 结 
果 的 平均 值 可 能 是 答案 (起码 在 线性 系统 中 是 )。 尽 管用 这 种 方法 得 不 到 一 个 高 精度 的 答案 ,但 
得 到 的 两 个 结果 的 差异 可 以 为 计算 中 数值 的 精度 给 出 好 的 建议 。 


2. 10 ”小结 


本 章 标题 是 “基础 知识 ”， 我们 的 计算 机 之 旅 从 这 里 真正 开始 一 一 无 论 它 是 一 个 房间 大 小 的 
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大 型 机 、 一 个 台式 机 或 者 一 个 嵌入 式 系统 。 本 章 也 是 基础 ， 因 为 几乎 所 有 的 计算 机 ,无论 其 大 
小 ， 都 是 基于 相 类 似 的 规则 。 它 们 使 用 相同 的 数字 格式 ， 执 行 同样 类 型 的 计算 如 加 、 减 、 乘 、 
除 。 我 们 看 到 的 主要 区 别 就 是 存在 一 些 更 快 的 方法 来 完成 这 些 运算 ， 但 以 增加 复杂 性 、 面 积 、 功 
耗 为 代价 。 

我 们 以 对 计算 机 的 定义 及 其 组 成 的 考虑 开始 本 章 。 我 们 介绍 了 Flynn 提出 的 计算 机 类 型 (或 
CPU) 的 分 类 ， 学 习 了 连接 关系 及 所 包含 的 功能 层次 。 然 后 我 们 更 新 了 数字 格式 和 基本 运算 的 知 
识 ， 之 后 掌握 了 一 些 更 详细 的 关于 如 何 计算 的 知识 。 

本 章 已 经 涵盖 了 基础 知识 ， 下 一 章 将 侧重 于 如 何 获得 连接 和 计算 ， 即 如 何在 一 个 CPU 中 将 









































61] 这 些 功能 单元 放 在 一 起 ， 编 写 和 存储 程序 ， 控 制 所 需 的 内 部 操作 。 
2.1 一 个 程序 员 撰 写 一 个 C 语言 程序 ,将 4 个 字 节 (bo0、hbl、b2、b3) 存储 到 连续 的 内 存 空间 ， 在 有 32 
位 宽 内 存 的 小 尾 端 计算 机 中 运行 。 如 果 他 在 程序 运行 后 检查 内 存 ， 他 能 够 看 到 像 下 表 中 A 或 B 这 样 
的 数 吗 ? 
bit 31 bit 0 
A 
BB [wm Lo | lss | 
2.2 完成 下 表 (8 位 二 进 制 数 ) ， 不 能 进行 转换 的 请 标 出 。 
什 无 符号 数 补 码 | 原 码 移 127 码 
123 “ 
193 
7127 | | | 
2.3 采用 补 码 (2.30) 格式 ， 我 们 如 何 表示 值 0. 783 203 125? 能 够 用 (a) 32 位 ，(b) 16 位 或 (c) 8 位 
位 宽 精 确 表 未 吗 ? 
2.4 一 个 BCD 码 数字 包含 4 位 。 使 用 4 位 行 波 进位 加 法 器 ,用 额外 的 一 位 加 法 器 和 逻辑 门 进行 改进 ， 搭 
建 出 一 个 新 加 法 器 ， 使 其 能 够 完成 两 个 1 位 BCD 数字 加 法 并 产生 BCD 格式 的 和 。 扩 展 本 设计 ， 使 之 
能 够 完成 两 个 4 位 BCD 数 的 加 法 。 
2.5 使 用 部 分 积 〈 长 乘法 ) 方法 ,手工 完成 两 个 4 位 二 进 制 数 X=1011 和 Y=1101 的 乘法 ,假设 它们 都 
是 无 符号 数 。 
2.6 使 用 Booth 算法 重 做 上 一 道 题 。 
2.7 如 果 加 、 移 位 和 比较 操作 ， 每 个 需要 一 个 CPU 周期 完成 ， 那 么 执行 2.5 题 中 的 计算 需要 多 少 个 CPU 
周期 ? 将 其 和 2.6 题 中 的 Booth 算法 相 比 较 。 在 大 字 宽 运算 时 Booth 算法 更 有 效 吗 ? 
2.8 在 RISC CPU 中 有 一 条 指令 称 为 “MUL”， 它 能 将 两 个 寄存 器 中 内 容 相 乘 并 把 结果 存储 到 第 三 个 寄存 
[62 | 器 。 寄 存 器 是 32 位 宽 ， 存 储 的 结果 是 64 位 逻辑 结果 的 前 32 位 〈 请 注意 32 位 x 32 位 应 该 得 到 64 





位 ) 。 但 是 程序 员 想 得 到 全 部 64 位 结果 ， 他 怎么 才能 得 到 呢 ? (提示; 你 需要 做 不 止 一 次 的 乘法 ， 以 
及 一 些 与 和 加 运算 来 得 到 结果 。) 验证 你 的 方法 ， 确 定 需要 多 少 指令 。 

2.9 ”如果 我 们 进行 两 个 (2.6) 格式 无 符 导数 X=11010000 和 下 =01110000 的 乘法 ， 那 么 我 们 将 得 到 一 个 
(4. 12) 格式 的 结果 。 将 结果 左 移 2 位 ， 变 成 (2. 14) 格式 〈 即 有 效 地 去 除 前 两 位 ) ， 然 后 再 截取 到 
(2.6) 格式 (丢弃 低 3 位 ) 。 这 样 会 导致 溢出 吗 ? 截断 会 委 失 某 些 位 吗 ? 

2.10 按照 [EEE754 单 精度 浮 点 数 标准 : 

(a) 给 出 在 下 面 的 情况 中 ,以 (oa, EE，5) 格式 存储 的 数 六 的 值 : 


2. 14 


2. 1S 


2. 19 


2. 20 


2. 21 


2.25 
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1.E=255, Sz0 

ii.E=255, S$=0 

li.0 <E<255 

Iy.E=0, Sz0 

V.E=0, $=0 
(b) 以 IEEE754 单 精度 规格 化 格式 表示 下 列 值 : 

1. -1.25 

.1/32 
采用 标准 指数 /尾数 的 浮 点 数 格式 能 够 以 多 于 一 种 的 方式 表示 零 吗 ? 正 EE754 能 够 以 多 于 一 种 的 方式 
表示 零 吗 ”如 果 是 ， 给 出 并 解释 不 同 的 表示 方式 。 
根据 图 2-9 所 示 的 除法 流程 图 ， 给 出 下 面 运算 的 商 和 余数 值 : 无 符号 5 位 二 进 制 除法 QAM， 其 中 Q = 
10101b H. M =00011b。 
根据 图 2-7 给 出 的 乘法 流程 图 ， 部 分 积 乘 法 执行 两 个 无 符号 5 位 二 进 制 数 00110 和 00101 的 相 乘 。 请 
给 出 用 到 的 寄存 器 数量 、 大 小 以 及 每 一 次 欠 代 时 寡 存 器 的 值 。 
根据 图 2-8 给 出 的 乘法 框图 重 做 上 面 的 问题 ， 比 较 并 对 比 这 两 种 方法 在 效率 、 步 又 数 、 寄 存 器 的 数 
量 等 方面 的 情况 。 
考察 在 C 编程 语言 中 下 面 的 运算 : 





0.25 + (float) (9 x 43) 

假设 整数 采用 16 位 二 进 制 数 表示 ， 浮 点 数 采用 32 位 IEEE754 单 精度 格式 表示 ， 请 按照 执行 计算 所 
需要 的 步骤 产生 符合 IEEE754 格式 的 结果 。 
下 面 描述 的 处 理 器 属于 Michael Flynn 分 类 的 哪 一 种 : 有 一 条 指令 可 以 同时 将 一 组 5 个 内 部 寄存 器 的 
每 个 字 节 布 移 一 位 ? 
判断 自修 改 代码 (是 一 种 软件 ， 通 过 重 写 它 的 部 分 代码 可 以 修改 它 自己 的 指令 ) 更 适合 汉 ， 诺 依 曼 
体系 结构 系统 还 是 哈佛 体系 结构 系统 。 
使 用 一 个 16 位 处 理 器 且 只 有 一 个 结果 寄存 器 ,按照 过 程 将 (2.14) 格式 无 符号 数 X = 
01. 11000000000000 和 (1. 15〉 格式 无 符号 数 YY =0. 110000000000000 相 加 。 为 避免 结果 溢出 应 该 采 
用 什么 格式 ? 本 例 中 的 计算 有 任何 精度 损失 吗 ? 
识别 下 列 数字 是 IEEE754 模式 的 哪 一 种 : 

1 10100010 10100000000000000000000000 


| 0 | 00000000 | 10100000000000000000000000 


0 ll1111111 00000000000000000000000000 


按照 基数 为 7 进行 下 列 计算 和 表示 ， 结 果 的 尾数 和 指数 会 怎样 ? 

(3 x7*)/(6 x74) 
提示 : 你 不 需要 使 用 计算 器 来 得 到 结果 。 
使 用 部 分 积 (长 乘法 ) 方法 ， 手工 计算 两 个 6 位 二 进 制 数 X=100100 和 Y = 101010 的 相 乘 ， 假 设 二 
者 都 为 有 符号 数 。 
交换 前 面 题目 中 的 乘 数 和 被 乘 数 ， 重 新 完成 乘法 ( 即 两 个 6 位 有 符号 二 进 制 数 X = 101010 和 了 = 
100100) 。 比 较 执 行 部 分 积累 加 所 需 的 加 法 数量 。 有 没有 可 能 通过 交换 乘 数 和 被 乘 数 来 简化 这 个 过 
程 ? 如果 有 ， 为 什么 ? 
使 用 Booth 算法 重 做 上 面 两 个 乘法 ， 当 交换 乘 数 和 被 乘 数 后 ， 部 分 积累 加 的 数量 有 所 不 同 吗 ? 
参考 2.9 节 ， 执 行 一 个 单 精度 IEEE754 浮 点 规格 化 数 的 乘法 时 ， 确 定 所 需 的 整数 加 法 、 移 位 和 乘法 
操作 的 数量 ， 将 其 和 运行 一 个 〈2. 30) x (2. 30) 格式 乘法 时 所 需 的 基本 操作 数量 进行 比较 。 本 题 忽 
略 扩展 中 间 模 式 、 溢 出 和 饱和 效应 ， 并 假设 两 个 浮 点 数 是 不 同 的 指数 值 。 
使 用 减法 迭代 来 执行 一 个 8 位 除法 ， 需 要 多 少 计算 操作 ? 
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在 这 一 章 里 ， 我 们 开始 着 眼 于 一 个 组 合 的 整体 ， 我 们 称 之 为 计算 机 一 一 尤其 关注 它 的 大 脑 ， 
即 中 央 处 理 单元 〈CPU) 。 本 章 将 侧重 介绍 计算 机 体系 结构 的 传统 观点 ， 既 不 会 考虑 现在 最 先进 
的 扩展 和 加 速 ， 这 些 将 在 第 5 章 中 介绍 ， 也 不 会 对 计算 机 中 的 单个 功能 单元 进行 深入 的 讲解 ， 这 
会 在 第 4 章 中 具体 讲述 。 

相反 ， 本 章 将 关注 计算 机 是 由 什么 构成 的 、 各 部 分 是 怎么 组 织 和 被 控制 的 以 及 它 是 如 何 纺 
程 的 。 


3.1 什么 是 计算 机 


当 人 们 说 起 一 台 计算 机 ， 他 们 的 印象 是 一 个 米色 的 箱子 ， 有 显示 器 、 键 盘 和 鼠标 。 虽 然 他 们 
印象 中 的 这 个 箱子 确实 包含 着 一 台 计 算 机 ， 但 我 们 知道 其 实 箱 子 里 需要 了 解 的 东西 还 很 多 。 

系统 中 的 “计算 机 ”部 分 包括 CPU、 存 储 子 系统 和 连接 它们 的 总 线 一 一 实际 上 正 是 这 几 块 
构成 了 以 存储 程序 来 执行 功能 的 数字 计算 机 。 它 并 不 需要 显卡 、 无 线 接口 卡 、 硬 盘 和 音响 系统 来 
计算 或 执行 所 存储 的 程序 。 

存储 程序 的 数字 计算 机 可 以 说 是 一 个 非常 灵活 但 又 相当 基本 的 数据 计算 和 传输 的 机 器 ， 通 
过 编程 来 实现 需要 的 功能 。 

如 今 ， 科 技 发 达 地 区 的 人 们 常 被 十 几 台 或 上 百 台 计算 机 包围 。 它 们 可 能 在 微波 炉 中 、 烤 炉 
中 、 手 机 中 、MP3 播放 器 中 ， 甚 至 是 电子 门 锁 中 。 据 估计 ， 一 辆 豪华 汽车 含有 超过 100 个 处 理 
器 ， 甚 至 一 个 人 门 机 型 都 可 能 包括 不 止 40 个 单独 的 设备 。 最 新 一 个 令 人 惊讶 的 例子 ， 一 条 双人 
电热 毯 已 经 发 展 到 包含 4 个 专用 微 处 理 器 一 一 在 电热 毯 的 两 边 各 有 一 套 独立 控制 ， 每 套 中 一 个 工 
作 、 一 个 备用 。 随 着 这 种 规模 的 应 用 ， 容 易 想 象 得 到 “未 来 就 是 租 入 式 的 "。 本 章 的 内 容 适用 于 
各 种 计算 机 ， 无 论 是 房间 大 小 的 还 是 晤 蚁 大 小 的 。 


3.2 让 计算 机 为 你 服务 

正如 我 们 所 看 到 的 ， 在 最 基本 的 层面 ,计算 机 只 是 一 个 能 够 传输 数据 和 执行 逻辑 操作 的 单 
元 。 所 有 更 高 级 别 的 计算 功能 都 是 由 这 些 基本 数据 传输 和 逻辑 运算 构成 的 一 个 序列 或 组 合 。 计 
算 机 内 各 种 各 样 的 单元 模块 用 于 执行 不 同 的 任务 ， 而 这 些 是 非常 标准 的 组 成 模块 ， 被 大 多 数 计 
算 机 所 采用 。 例 如 ， 一 个 算术 逻辑 单元 《ALU) 执行 算术 运算 ,而 一 个 总 线 用 来 从 一 点 到 为 一 
点 传输 数据 。 显 然 , 需要 一 些 方法 来 指导 计算 机 执行 一 一 决定 在 何 时 何 处 使 用 这 些 基 本 模块 传 
输 数 据 ， 以 及 执行 哪 一 个 逻辑 操作 。 计 算 机 (包括 其 内 部 单元 和 总 线 ) 必须 通过 编程 才能 执行 
人 们 希望 它 完成 的 工作 。 

作为 第 一 步 ， 需 要 将 要 完成 的 工作 拆 分 为 一 系列 可 行 的 操作 。 这 样 的 一 个 序列 称 为 程序 ， 并 
且 每 个 操作 是 通过 指令 加 操作 数 来 发 布 命令 。 计 算 机 中 能 够 支持 的 操作 列表 称 为 指令 集 。 


3.2. 1 程序 存储 


程序 中 的 所 有 指令 需要 以 一 种 可 被 计算 机 访问 的 方式 储存 。 最 初 的 电子 计算 机 是 通过 将 导 
线 插 人 不 同 的 播 孔 来 编程 的 。 后 来 ， 使 用 手动 转换 ， 随 后 又 使 用 自动 的 打 孔 式 读 卡 器 ， 穿 孔 之 后 
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磁带 被 发 明 出 来 ， 但 是 不 管 是 郧 种 存储 格式 ， 每 一 次 上 电 之 后 的 新 编程 都 需要 手工 输入 。 

现代 计算 机 将 程序 存储 在 磁盘 、ROM 、EEPROM 、 闪 存 或 类 似 的 媒体 上 。 程 序 总 是 在 执行 前 
从 存储 设备 读 取 到 RAM 中 ， 这 是 出 于 性 能 的 原因 : RAM 比 大 多 数 的 大 容量 存储 设备 速度 更 快 。 

在 内 存 中 存储 的 条 目 需要 有 一 个 能 够 访问 的 位 置 。 这 个 存储 的 位 置 也 需要 被 标识 ， 这 样 才 
能 进行 访问 。 早 期 的 计算 机 设计 者 称 存储 的 位 置 为 地 址 ， 因 为 这 让 CPU 可 以 选择 和 访问 任何 存 
放 在 独立 地 址 中 的 指定 的 信息 或 程序 代码 。 实 现 这 件 事 最 有 效 的 方式 就 是 由 CPU 通知 存储 设备 
它 要 访问 的 地 址 ， 然 后 等 待 该 地 址 的 内 容 ， 在 一 段 时 间 后 从 设备 接口 读 取 这 个 内 容 值 。 

大 家 知道 ，CPU 的 编程 用 最 低级 的 机 器 代码 指令 完成 ,这些 指令 或 者 是 定 长 的 (在 大 多 数 
RISC 机 器 中 ， 如 ARM、PIC 或 MIPS) ,或 者 是 指令 字 长 度 可 变 的 (在 一 些 CISC 机 器 中 ， 如 Mo- 
torola 68000 ) 。 程 序 是 按 特定 序列 排列 的 指令 馈 ， 用 来 指示 计算 机 执行 所 要 求 的 任务 。 

执行 这 些 指令 序列 完成 正确 的 工作 ， 可 能 需要 访问 一 些 需要 处 理 的 数据 。 历 史上 曾经 主张 
将 程序 存储 空间 和 数据 存储 空间 分 离 ， 特 别 是 因为 这 两 种 类 型 的 信息 有 不 同 的 特点 ; 程序 通常 
是 顺序 且 只 读 的 ， 而 数据 可 能 需要 读 / 写 双向 访问 ， 而 且 对 数据 的 访问 可 能 是 按 顺 序 的 也 可 能 是 
随机 方式 。 


3. 2.2 存储 架构 


一 个 计算 机 中 的 所 有 存储 位 置 都 可 以 被 定义 成 “存储 器 ”"， 因 为 一 旦 写 入 它们 就 记得 写 人 的 值 。 
然而 ， 通 常情 况 下 ， 我 们 提 到 这 个 术语 时 指 的 是 固态 的 RAM 和 ROM， 而 不 是 寄存 器 、 光 盘 等 。 无 
论 是 哪 一 种 命名 约定 ， 对 存储 器 的 定义 都 由 不 同 的 权衡 和 技术 选择 来 决定 ， 包 括 以 下 几 个 特点 : 

。 成 本 。 
密度 (每 立方 厘米 的 字 节 数 ) 。 
电源 效率 (每 次 写 或 读 消耗 多 少 纳 焦耳 ,或 存储 时 间 的 秒 数 ) 。 
访问 速度 ( 包 插 寻 道 时 间 和 平均 访问 时 间 )。 
访问 大 小 〈 字 节 、 字 、 页 等 ) 。 

易 失 性 〈 即 数据 在 设备 断 电 后 丢失 ) 。 
可 靠 性 〈 它 有 移动 部 分 吗 ? 有 年 限 吗 ?) 。 
CPU 管理 代价 。 

这 些 因素 导致 存储 系统 有 一 个 层次 结构 ， 如 图 3-1 所 示 的 金字 塔 ， 无 论 一 个 大 的 台式 机 / 服 
务 器 或 一 个 典型 的 岩 人 式 系统 都 是 如 此 架构 。 所 示 的 两 个 主题 一 一 内 存 管理 单元 (MMU ) 和 高 
速 缓存 将 在 随后 的 第 4 章 讨论 。 而 对 于 目前 本 节 的 讨论 ， 请 注意 寄存 器 一 一 距 CPU 功能 单元 非 
常 近 的 临时 存储 位 置 一 一 是 最 快 的 ,但 也 是 最 昂贵 的 资源 (因此 一 般 数 量 很 少 ， 范围 从 简单 微 
控制 器 的 1、2 或 3 个 到 128 个 ， 在 一 些 大 型 的 UNIX 服务 器 中 会 更 多 ) 。 

金字 塔 从 顶 向 下 ， 每 字 节 的 成 本 逐渐 降低 (从 而 提供 的 数量 逐步 增加 ) ， 但 代价 是 访问 速度 
也 随 之 降低 。 无 论 是 能 人 式 系统 、 台 式 机 或 超级 计算 机 ， 几 乎 都 是 包含 以 下 几 个 层次 的 一 个 
架构 : 

。 寄存 器 : 存储 程序 的 临时 变量 、 计 数 器 、 状 态 信 息 、 返 回 地 址 、 堆 栈 指针 等 。 

。 RAM: 存放 堆栈 、 变 量 、 待 处 理 的 数据 ， 往 往 是 程序 代码 的 临时 存储 位 置 。 

。 非 易 失 性 存储 器 : 如 闪存 、EPROM 或 硬盘 一 一 存储 要 执行 的 程序 一 一 在 初始 上 电 启 动 之 

后 显得 特别 重要 ， 那 时 易 失 性 RAM 的 存储 空间 都 是 空 的 。 

其 他 的 存储 层次 是 为 了 方便 或 有 速度 方面 的 原因 ， 正 因为 存储 架构 中 有 这 人 么 多 层次 ， 有 几 
个 地 方 都 能 够 存储 所 需 的 信息 条 目 ， 因 此 ， 需 要 一 个 方便 的 手段 能 够 在 需要 的 时 候 在 各 存储 位 
置 之 间 传输 信息 。 
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速度 更 快 ， 
更 接近 CPU， 
价格 更 加 昂贵 


> 









| 容量 更 大 ， 
磁带 、CDROM 等 | 成 本 更 低 
Y 
典型 供 入 式 系统 典型 台式 机 /服务 器 系统 


图 3-1 用 金字 塔 形 的 框图 在 速度 、 尺 寸 和 开销 等 方面 说 明 椒 入 式 系统 (左边 ) 
和 传统 台式 机 (右边 ) 的 存储 架构 





3. 2.3 程序 传输 


为 了 把 一 个 程序 从 外 部 存储 器 读 取 到 RAM， 需 要 用 到 0 接口 ， 如 IDE ( Integrated Drive 
一 个 非常 流行 的 硬盘 接口 )、SCSI (Small Computer Systems Interface 可 以 连接 
光驱 、 扫 描 仪 和 其 他 许多 设备 ) 、 其 他 的 并 行 总 线 或 串 行 总 线 (如 USB) ， 这 些 接口 将 在 后 面 的 
6.3.2 节 和 6.3.4 节 介绍 。 

RAM 和 CPU 之 间 的 连接 是 通过 一 个 总 线 实现 的 ， 这 也 是 CPU 和 LO 设备 之 间 的 连接 方式 。 
在 传送 一 个 程序 时 ， 可 同时 传 一 个 字 节 或 一 个 字 。RAM 可 能 在 CPU 所 在 的 集成 电路 (IC) 的 内 
部 ， 也 可 能 在 其 外 部 。 

当 程 序 的 一 条 指令 从 RAM 读 人 CPU 后 ， 它 需要 解码 然后 被 执行 。 由 于 CPU 内 部 的 不 同 单元 
执行 不 同 的 任务 ， 因 此 待 处 理 的 数据 需要 被 定向 到 一 个 能 够 执行 相应 功能 的 单元 。 如 果 希 望 在 
CPU 内 部 模块 间 传 输 信 息 ， 则 需要 在 取 指 / 译 码 单 元 和 其 他 不 同 的 处 理 单元 间 有 一 个 内 部 总 线 ， 
也 许 是 一 个 能 够 从 每 一 个 处 理 单元 收集 结果 并 把 其 送 到 某 处 的 总 线 。 

通常 情况 下 ， 待 处 理 的 数据 已 经 在 内 部 寄存 器 中 (尤其 是 在 许多 现代 的 CPU 中 ， 称 为 load- 
store， 其 体系 结构 的 约束 要 求 待 处 理 的 数据 必须 来 自 寄存 器 ) 。 这 个 数据 通过 总 线 从 寄存 器 传输 到 
处 理 单元 ， 结 果 将 再 由 总 线 送 回 给 寄存 器 。 往 往 将 内 部 的 所 有 寄存 器 放 在 一 起 构成 寄存 器 组 以 方便 
使 用 。 此 外 ， 在 常规 体系 结构 的 机 器 中 ， 每 一 个 处 理 单元 都 会 通过 总 线 连接 到 这 个 寄存 器 组 。 

在 第 4 章 中 ,我 们 将 以 不 同 的 方式 来 研究 计算 机 总 线 ， 就 像 研究 现代 CPU 中 许多 功能 模块 
一 样 ， 并 考虑 不 同 的 总 线 安排 对 性 能 的 影响 。 这 里 ， 我 们 假设 这 样 的 内 部 总 线 确实 存在 ， 且 满足 
我 们 的 要 求 。 

给 定 一 个 (可 能 相当 复杂 ) CPU 内 部 总 线 互连网 络 ， 以 及 连接 在 这 个 网 络 上 的 多 个 内 部 功 
能 单元 和 寄存 器 ， 问 题 就 出 来 了 : 如 何 仲裁 和 控制 总 线 上 和 总 线 间 的 数据 传输 ? 


3.2.4 控制 单元 


多 个 总 线 、 寄 存 器 、 各 种 功能 单元 、 内 存 、L0 端口 等 都 需要 进行 控制 ， 这 就 是 控制 单元 的 
工作 职责 。 大 多 数 操作 都 需要 一 个 定义 在 CPU 内 部 的 处 理 流程 ， 如 : 
。 取 指 。 





Electronics 
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。 指令 译 码 。 
”人 
。 指令 执行 结果 的 写 回 (如果 需 要 )。 
此 外 ,还 需要 一 个 方法 确保 这 些 步 又 发 生 并 且 按 照 正 确 的 顺序 执行 。 这 就 预先 假定 了 需要 
在 设备 内 部 ， 从 某 些 控制 单元 到 需要 被 控制 的 片上 单元 之 间 ， 有 一 组 控制 线 和 信号 。 
在 早期 的 处 理 器 中 ， 控 制 单元 是 一 个 简单 的 有 限 状 态 机 (FSM) ， 在 预先 定义 的 几 个 状态 之 
间 无 休止 地 转换 。 控 制 线 从 该 控制 单元 以 各 种 线 和 连接 构成 的 蜘蛛 网 连接 到 需要 控制 的 每 一 
端点 。 当 我 们 在 第 8 章 设计 自己 的 处 理 器 时 将 会 详细 地 看 到 此 方法 。 
控制 不 仅 在 读 取 和 分 发 指令 时 需要 ， 单 个 指令 的 执 
行 也 同样 需要 。 考 虑 执行 一 个 数据 传输 的 简单 情况 ， 通 
过 一 个 32 位 单 总 线 从 寄存 器 A 传 到 寄存 器 B (LDR B， 
A)， 如 图 3-2 所 示 。 


了 





图 中 的 两 个 三 角形 是 三 态 缓冲 器 -类 似 于 一 个 开 “图 3 3 _ 个 搓 常 简单 的 计算 机 球 制 音 
关 设备 ， 当 控制 号 有 效 时 数据 信号 能 够 通过 级 名 cud 显示 了 两 个 寄存 器 ， 
但 当 控制 信号 无 效 时 ， 数 据 信和 号 不 能 通过 。 例 如 ， 三 态 各 一 个 都 配 有 三 态 缓冲 器 ，-- 
缓冲 器 可 用 于 总 线 上 以 决定 哪个 寄存 器 被 允许 驱动 总 线 。 32 位 总 线 连 接 到 所 有 端口 


任何 时 刻 都 只 有 一 个 寄存 器 能 够 驱动 总 线 ， 因 此 其 他 所 有 到 总 线 的 三 态 连接 必须 都 是 关闭 的 。 
铭记 这 一 点 ， 数 据 传输 所 需要 的 动作 总 结 如 下 : 
1. 关闭 驱动 总 线 的 任何 三 态 缓冲 器 (本 例 中 将 enal 到 ena4 设 为 无 效 ) ; 
2. 允许 ena2 以 打开 32 位 三 态 门 ， 和 
3. 人 允许 ena3 从 而 将 总 线 数据 反馈 给 寄存 器 B; 
4 禁止 na3 从 而 将 总 线 数据 锁 存在 寄存 器 B 中 
5. 禁止 ena2 从 而 释放 总 线 以 进行 其 他 操作 。 
te 


旦 者 二 间 : 








。1 到 2 等 待 “ 关 ” 全 上 并 着 引咎 组 代 所 直到 三 态 缓冲 器 并 进 和 行 控 制 ; 

。 2 到 3: 等 待 总 线 电压 稳定 〈 即 寄存 器 A 的 内 容 由 总 线 电 压 正确 反映 出 来 ) ; 

。 3 到 4: 给 寄存 器 足够 的 时 间 去 捕获 总 线 上 的 值 ; 

es。 4 到 5: 等 待 控 制 信号 传递 到 寄存 器 ， 在 总 线 为 其 他 用 途 被 释放 之 前 寄存 器 停止 “监视 

总 线 ”。 

有 时 等 待 时 间 非 常 重要 。 在 现代 处 理 器 中 ， 它 是 由 系统 的 时 钟 周期 计数 的 ， 每 一 个 处 理 阶 段 
被 分 配 一 个 或 多 个 时 钟 周 期 。 

图 3-3 描述 了 在 动作 之 间 一 个 时 钟 的 周期 级 时 序 ， 显 示 了 在 处 理 的 每 个 阶段 事件 的 顺序 。 
然 需要 个 同步 的 控制 系统 以 执行 这 个 动作 序列 ， 即 使 只 是 最 简单 的 CPU 指令 序列 。 


_ ， A _ A A. 

A A 才 -| A A A 

8 3 i 

和 5 和 1 和 3 3 一 
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] 2 3 4 5 


是 这 











、 











图 3-3 一 个 简单 控制 单元 (如 图 3-2 所 示 ) 从 寄存 器 A 传输 数据 到 寄存 器 B 时 的 周期 级 时 
序 ， 深 色 的 线 表示 在 那个 时 刻 特定 的 总 线 或 信号 是 激活 的 
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不 是 所 有 的 指令 都 需要 按 步 又 经 过 相同 的 状态 。 有 些 指令 ， 如 没有 返回 结果 的 ， 能 够 早点 终 
止 。 这 些 指令 或 者 通过 一 个 状态 机 完成 ， 任 赁 其 执行 完 所 有 状态 (对 那些 没 用 的 状态 定义 虚拟 
的 动作 ) ， 或 者 通过 提早 终止 或 自 定义 状态 转换 来 完成 。 在 这 个 给 定 的 例子 中 ， 这 样 一 条 指令 在 
结束 前 不 需 完成 全 部 的 5 个 状态 

有 些 指令 可 能 需要 专门 的 处 理 ， 进一步 扩展 状态 机 。CPU 设计 者 为 了 应 付 这 种 问题 ,通常 
会 增加 状态 机 的 复杂 度 以 解决 这 样 的 例外 ， 所 有 这 些 都 是 为 了 提高 运行 效率 。 

多 年 来 ， 越 来 越 多 怪异 的 或 完美 的 指令 相继 被 提出 。 没 有 一 个 天 才能 指出 它们 会 在 哪里 结 
束 一 一 真是 越 来 越 复杂 的 状态 机 ! 有 些 情 况 下 ，CPU 的 控制 单元 是 设计 中 最 复杂 的 部 分 ， 最 多 
会 占用 芯片 一 半 的 面积 。 而 另 一 些 情况 下 ， 状 态 机 变 得 非常 复杂 以 至 于 它 自 己 就 是 另 一 个 CPU 
实现 一 一 导致 一 个 简单 的 处 理 器 要 应 对 一 个 更 大 、 更 复杂 处 理 器 的 控制 需求 。 在 IC 设计 领域 (和 
其 他 许多 领域 一 样 ) ， 众 所 周知 复杂 性 会 导致 错误 ， 正 因为 如 此 一 些 替 代 的 方法 正 处 于 研究 之 中 。 

到 目前 为 止 , 我 们 只 考虑 在 一 个 处 理 器 中 处 理 不 同 指令 的 情况 。 现 在 ， 我 们 考虑 这 个 实际 的 任 
务 ， 就 是 随 着 不 断 增 长 的 内 部 总 线 连 接 、 更 大 的 寄存 器 组 、 更 多 的 功能 单元 和 更 高 的 时 钟 复杂 度 与 
灵活 性 ， 控 制 信号 要 分 布 在 更 大 的 甚至 还 在 增长 的 IC 面积 上 。 期 待 有 一 个 更 大 程度 的 处 理 器 内 部 
布线 逻辑 〈 即 走 线 从 设备 的 一 边 穿越 到 另 一 边 ) 。 这 种 难度 已 经 超越 了 指令 控制 的 复杂 度 。 事 实证 
明 在 一 个 IC 硅 片 上 ， 能 够 达到 整个 芯片 的 互 连 是 一 种 稀缺 资源 : 这 通常 都 留 给 快速 数据 总 线 。 把 
越 来 越 多 的 这 种 资源 用 于 专业 控制 目的 的 需求 从 另 一 方面 促进 了 替代 控制 策略 的 研究 。 

因此 产生 了 三 种 通用 的 方法 学 ， 称 为 分 布 式 控 制 、 自 定时 控制 和 简化 (增加 规律 性 ) 。 分 布 
式 控制 的 一 个 主要 例子 是 将 在 3. 2. 5 节 讨论 的 微 指 令 的 使 用 中 。 简 化 的 例子 可 以 在 3. 2. 6 节 讨 论 
RISC 处 理 器 时 见 到 。 让 我 们 简要 分 析 一 下 每 个 控制 方法 。 





图 3-4 所 示 是 一 个 非常 简单 的 CPU 内 部 的 一 ea ae 
都 通过 两 组 共享 数据 总 线 连接 。 总 线 进出 的 每 个 点 有 一 个 三 态 缓冲 器 。 每 个 总 线 、 三 态 门 、 寄 存 
器 和 ALU 端口 都 是 多 位 宽 的 。 


显然 ， 即 便 是 这 么 简单 的 系统 ， 从 控制 单元 发 出 的 单 控制 线 也 有 很 多 。 这 些 线 用 来 控制 每 一 
个 三 态 缓冲 器 和 ALU 的 模式 ( ALU 可 以 执行 几 种 可 选 的 功能 ) 。 图 中 有 些 线 没有 显示 ， 如 寄存 
器 选择 逻辑 。 在 第 4 章 及 后 续 章 节 中 ， 将 讨论 不 同 的 总 线 安排 ， 但 像 这 样 的 控制 信号 线 将 不 再 画 
出 ， 因 为 这 些 线 使 图 变 得 过 于 复杂 。 

一 个 可 行 的 简化 办 法 是 使 用 一 根 控制 总 线 或 几 组 控制 总 线 ， 而 不 是 图 3-4 所 示 那 样 每 个 寄存 器 
需要 两 根 控制 总 线 ， 事实 上 ， 若 要 控制 每 根 数 据 总 线 在 某 个 时 刻 只 能 获取 一 个 值 ， 只 需 给 每 根 数 据 
总 线 一 根 2 位 的 选择 总 线 去 驱动 ( 即 对 于 系统 总 共 4 位 的 控制 总 线 ) 即 可 ， 这 被 称 为 寄存 器 选择 
(register-select) 总 线 。 这 种 方法 在 一 个 4 个 寄存 器 的 系统 中 可 能 还 看 不 到 什么 好 处 ， 但 在 32 个 寄 
存 器 的 系统 中 会 将 寄存 器 选择 控制 线 的 数量 从 64 个 减少 到 6 个 。 一 个 小 例子 如 图 3-5 所 示 。 






= 三 态 缓冲 器 
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图 3-4 一 个 简单 CPU 所 需 的 集中 图 3-5 一 个 小 型 控制 单元 连接 到 寄存 器 组 的 输入 
控制 线 布 线 框 图 选择 逻辑 ， 该 寄存 器 组 包含 4 个 寄存 器 
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在 图 3-5 中 ， 从 控制 单元 发 出 的 到 寄存 器 组 的 线 的 数量 是 4 根 ， 在 寄存 器 组 那里 译 码 并 选择 
合适 的 寄存 器 。 这 不 _ 定 是 最 小 的 逻辑 ， 但 最 小 化 了 CPU 周围 连接 的 数量 。 

总 而 言 之 ， 控 制 无 处 不 在 ， 如 内 部 总 线 的 仲裁 ， 取 指 、 译 码 和 指令 执行 步骤 的 发 起 ， 与 外 界 
的 交互 (如 VO 接口 ) 以 及 将 CPU 内 的 每 件 事 都 排 好 序 。 控 制 其 至 会 扩展 到 对 外 部 存储 的 处 理 ， 
下 一 章 在 讨论 内 存 管理 单元 时 将 介绍 一 个 相关 的 重要 例子 。 

自 定时 控制 (self-timed control) 是 一 个 蔡 代 的 策略 ， 它 将 控制 分 布 到 整个 CPU， 这 是 基于 
大 部 分 指令 在 处 理 器 中 都 是 遵循 一 个 常用 的 “控制 路 径 ” 一 一 取 指 、 译 码 、 执 行 和 存储 。 在 执 
行 阶段 ， 以 下 过 程 也 相当 普遍 一“ 驱动 某 些 寄存 器 的 值 到 总 线 上 ， 驱 动 总 线 上 的 值 到 一 个 或 多 
个 功能 单元 ， 一 段 时 间 后 再 把 结果 收集 起 来 《还 是 通过 “组 或 多 组 总 线 ) 并 锁 存 回 寄 存 器 。 

此 例 中 使 用 自 定时 控制 并 不 暗示 这 是 一 个 异步 系统 ， 因 为 每 个 模块 都 是 同步 的 ， 尽 管 是 以 
更 快 的 时 钟 工作 (注意 我 们 将 在 第 9 章 介绍 在 某 些 深奥 的 异步 系统 中 使 用 自 定时 系统 ， 但 在 这 
里 我 们 只 处 理 同步 沁 辑 ) 。 

一 个 集中 式 控制 单元 能 够 指出 这 个 顺序 ，“ 正 在 取 指 "， 然 后 “正在 译 码 "， 然 后 “正在 执 
行 "， 最 后 是 “正在 存储 "。 这 需要 控制 从 负责 每 一 个 任务 的 IC 区 域 回 到 中 央 处 理 单元 的 这 些 连 
接 。 然 而 ， 自 定时 控制 策略 要 求 控制 单元 只 能 是 从 指令 读 取 开始 执行 过 程 ，“ 正 在 译 码 ”信号 是 
由 取 指 单元 触发 的 ， 而 不 是 从 中 央 位 置 来 的 。 类 似 地 ,“ 正 在 执行 ”信号 是 由 译 码 单元 产生 并 伟 
递 给 执行 单元 的 。 按 照 这 种 方式 ,需要 有 从 每 个 单元 到 下 一 个 单元 的 控制 互 连 ， 而 不 是 所 有 的 者 
向 中 央 位 置 集中 。 实 际 上 ， 控 制 信号 是 跟随 数据 通路 的 ， 在 一 个 流水 线 机 器 (将 在 第 5 章 介绍 ) 
上 菜 些 东西 将 变 得 更 加 有 效 。 

集中 式 控制 和 自 定时 控制 这 两 个 替代 方法 
的 流程 图 如 图 3-6 所 示 。 此 图 中 ， 数 据 总 线 没 有 
画 出 ， 它 可 能 来 自 外 部 存储 器 并 依次 通过 取 指 、 
译 码 、 执 行 和 存储 (FDES) 过 程 。 左 边 显示 了 时 
一 个 包含 4 根 控制 总 线 的 控制 单元 ， 每 一 根 控 | 
制 总 线 连接 到 4 个 独立 单元 的 使 能 输入 。 在 内 i 
部 状态 机 指定 的 相关 时 间 内 ， 控 制 单元 将 启动 
FDES 单元 的 操作 。 

根据 正在 处 理 的 指令 ， 控 制 单元 状态 机 可 
能 需要 对 FDES 单元 分 别 进行 不 同 的 控制 (可 能 
是 较 长 的 执行 阶段 或 跳 过 存储 ) 。 这 个 知识 必须 被 编码 到 控制 单元 中 ， 那 就 是 必须 记 住 每 个 与 
其 相连 单元 的 操作 组 合 。 

状态 机 首先 必须 包含 详细 的 时 序 信息 和 每 个 单元 的 要 求 信息 。 它 必须 清楚 经 过 这 些 单元 的 
可 能 同时 处 理 的 多 个 指令 。 

图 的 右边 是 一 个 自 定时 系统 : 控制 单元 仍然 会 控制 处 理 过 程 ， 但 在 这 种 情况 下 ， 每 个 后 续 单 
元 都 由 前 个 单元 在 需要 的 时 候 进行 启动 。 因 为 这 些 单元 本 身 要 启动 下 步 ， 所 以 假设 数据 总 
线 (没有 显示 ) 能 够 在 正确 的 时 间 得 到 正确 的 信息 。 

根据 被 处 理 的 指令 ， 这 些 单元 可 能 会 决定 跳 过 它们 自己 ， 把 请 求 直 接 传 给 下 一 个 单元 。 因 此 
每 个 单元 必须 把 这 个 职责 和 时 序 编码 到 自己 的 功能 中 。 

也 许 更 麻烦 的 是 需要 把 不 同 的 信息 传送 给 不 同 的 单元 ， 例 如 ， 执 行 单元 需要 知道 要 运行 什 
么 功能 一 是 与 、 或 、 减 法 还 是 其 他 ， 它 不 需要 知道 执行 的 结果 应 存 到 哪里 一 一 而 这 个 信息 对 存 
储 单元 来 说 是 需要 的 ， 相 反 它 不 需要 知道 执行 的 是 什么 运算 。 在 自 定时 情况 下 ， 或 者 将 所 需 信息 
的 全 部 字段 送 到 一 个 个 单元 ， 每 个 单元 只 读 取 与 自己 相关 的 ,或 者 把 这 些 信息 集中 存储 。 实 现 策 





图 3-6 集中 式 控制 ( 左 ) 和 自 定时 控制 ( 右 ) 
两 种 替代 策略 的 控制 流程 图 
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略 的 选择 取决 于 对 复杂 度 和 性 能 的 要 求 。 
3.2.5 微 指令 


随 着 CPU 变 得 越 来 越 复杂 ， 它 们 最 终 成 为 一 个 基本 功能 需求 的 组 合体 ， 带 有 越 来 越 多 的 用 
户 定制 的 专用 指令 ， 有 些 也 已 成 往事 。 一 个 例子 就 是 20 世纪 80 年 代 的 Intel 8086 、80386 、80486 
处 理 器 上 的 BCD 码 处 理 指令 ， 就 是 为 了 反 向 兼容 那些 已 经 几 十 年 的 旧版 商业 软件 。 商 业 的 需求 
驱动 了 CPU 不 断 提高 其 处 理 速度 ， 这 种 改进 一 方面 是 通过 提高 时 钟 频率 来 实现 ， 另 一 方面 是 通 
过 用 一 条 指令 执行 更 多 的 功能 实现 的 。 

复杂 指令 的 提出 更 多 是 因为 外 存 和 内 存 之 间 的 速度 差异 。 内 存 需 要 花 更 多 的 钱 ， 但 其 速度 
是 外 存 的 1000 倍 。 一 个 大 的 瓶颈 就 是 把 指令 从 外 存 取 到 处 理 器 中 。 因 此 有 一 个 很 好 的 想法 就 是 
创造 单个 复杂 指令 以 替代 原来 的 100 条 小 指令 序列 。 

实际 上 ， 我 们 可 能 会 想到 用 助 记 符 ， 外 部 程序 是 以 助 记 符 (指令) 写 的 ， 它 被 缓慢 地 送 人 
CPU， 每 一 个 程序 都 会 带 来 更 长 序列 的 内 部 操作 。 每 个 助 记 符 可 能 会 产生 一 个 内 部 操作 序列 ， 这 
些 内 部 序列 才 是 用 微 指 令 写 的 真正 的 程序 。 微 指令 (microcode) 是 这 些 处 理 器 的 基本 指令 集 ， 
但 往往 与 外 部 指令 不 特别 相似 。 所 有 的 外 部 指令 在 进入 CPU 时 ， 可 能 都 要 被 翻译 为 微 指令 程序 
或 微 程序 。 

微 程序 设计 作为 一 门 技 术 ， 实 际 上 是 20 世纪 50 年 代 初 由 Maurice Wilkes 在 剑桥 大 学 发 明 的 ， 
虽然 IBM System/360 家 族 的 计算 机 成 员 可 能 是 第 一 台 使 用 该 技术 实现 的 商业 机 器 。 

图 3-7 中 靖 述 了 一 些微 指令 的 概念 ， 其 中 外 部 程序 存储 在 慢 速 存储 器 中 ， 并 通过 CPU 执行 。 
当前 程序 计数 器 (PC) 指向 指令 DEC A， 可 能 是 递减 寄存 器 A 中 的 值 。 这 条 指令 被 CPU 取出 
来 ， 译 码 为 一 个 微 指令 序列 ， 包 括 将 A 的 值 加 载 到 寄存 器 X 中 ， 然 后 把 1 加 载 到 寄存 器 Y 中 ， 
再 用 X 减 去 Y， 最 后 把 结果 保存 回 A 中 。 












外 部 程序 


DEC A 
PLB A 
QWAC 
WREB 
TRTC 

PPL A 








图 3-7 指令 执行 框图 : 指令 从 外 部 慢 速 存储 器 取出 ， 在 CPU 中 详 码 ， 以 非 
常 简单 的 微 指 令 序列 执行 
由 DEC 指令 产生 的 一 个 小 型 的 4 条 指令 微 程序 是 存储 在 CPU 内 部 的 ， 位 于 快速 的 片上 只 读 
存储 器 (ROM) 中 ， 并 需要 一 个 内 部 的 微 程序 计数 器 。 它 们 在 外 部 程序 的 “外 部 志 界 ”是 不 可 
见 的 ， 这 些 外 部 程序 甚至 不 知道 寄存 器 X、Y 和 Z 存在 于 CPU 中 。 
进一步 扩展 该 方法 ， 会 得 到 一 个 使 用 纳 指令 (nanocode) 的 处 理 器 : 外 部 程序 转换 成 微 指令 
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的 微 程序 ， 每 个 微 程序 再 进一步 翻译 成 由 纳 指 令 构 成 的 纳 程 序 ! 尽管 这 项 技术 实际 上 只 是 简单 
的 扩展 ,但 比 使 用 微 指令 方式 还 会 进一步 减少 返回 值 。 这 个 好 处 主要 是 依赖 于 外 部 存储 器 已 成 
为 瓶颈 这 个 事实 。 在 外 部 随机 存储 器 (RAM) 又 慢 又 贵 而 内 部 ROM 却 非 常 快 的 时 代 ， 这 样 做 无 
疑 是 正确 的 。 但 是 随 着 RAM 技术 的 改进 ， 包 括 静 态 RAM (SRAM) 、 动 态 RAM (DRAM) 以 及 
随后 的 同步 动态 RAM (SDRAM) 都 削弱 了 ROM 的 速度 优势 ， 在 20 世纪 90 年 代 这 些 技术 之 间 的 
差别 已 经 不 大 了 。 

由 于 速度 优势 已 不 明显 ， 因 此 微 指 令 的 普及 性 开始 消退 。 

一 个 例外 是 这 种 指令 翻译 的 好 处 还 是 有 用 的 ， 微 指令 方法 所 固有 的 这 个 特点 允许 一 种 类 型 
的 CPU 可 以 执行 男 一 种 机 器 的 指令 集 。 

在 20 世纪 90 年 代 末 期 ， 处 理 器 继续 改进 ， 内 部 为 RISC 的 机 器 却 可 以 执行 CISC 指令 集 ( 见 
下 一 节 )。 没 有 哪个 处 理 器 能 像 x86 系列 处 理 器 这 样 更 清楚 地 表现 出 这 一 优势 。 这 些 CPU 设计 要 
追溯 到 1971 年 以 来 的 遗留 问题 ， 因 此 不 仅 要 保证 代码 的 向 上 兼容 性 ， 使 得 能 够 执行 古老 的 、 并 
不 优化 的 CISC 指令 集 ， 还 要 比 竞争 对 手 的 处 理 器 运行 更 快 。 包 含 到 这 些 处 理 器 中 的 老式 CISC 指 
令 将 被 翻译 成 更 快 的 RISC 风格 的 优化 汇编 序列 。 因 此 RISC 指令 取代 了 现代 的 微 指 令 。 

微 指令 翻译 的 另 一 个 好 处 是 一 个 处 理 器 可 以 模仿 其 他 设备 。 这 样 的 处 理 器 可 执行 一 个 ARM 
程序 ， 就 像 一 个 本 地 的 ARM 处 理 器 一 样 ， 它 还 可 以 转 而 执行 德州 仪器 (TI) 公司 的 DSP 代码 ， 
就 像 是 一 个 TI 的 DSP 一 一 是 能 够 以 各 种 CPU 的 身份 运行 各 种 程序 的 终极 方法 。 

尽管 有 这 么 有 利 的 市 场 ， 但 微 指令 背后 的 驱动 因素 还 是 消失 了 ， 它 在 20 世纪 80 年 代 已 经 不 
再 流行 。 市 场 更 倾向 于 能 做 得 更 多 、 更 快 的 处 理 器 : 摩尔 定律 如 火 如 茶 。 


3.2.6 RISC 和 CISC 的 对 比 


RISC (精简 指令 集 计 算 机 ) 和 CISC (复杂 指令 集 计 算 机 ) 背后 的 思想 已 经 在 2.2 节 简单 提 
到 过 。CISC 体系 结构 包括 许多 复杂 且 功 能 强大 的 指令 ,而 RISC 体系 结构 则 集中 在 只 包含 常用 指 
令 却 处 理 快速 的 小 型 子 集 上 。 即 使 是 复杂 操作 也 被 分 解 为 多 条 RISC 指令 ， 它 们 和 直接 用 一 条 
CISC 指令 一 样 快 甚至 更 快 。 

图 3-8 解释 了 这 一 概念 ， 图 中 有 两 个 程序 : 一 个 运行 在 RISC 机 器 上 ， 拥 有 快速 的 每 周期 一 
条 指令 的 能 力 ， 在 12 个 时 钟 周期 内 可 以 完成 一 个 12 条 指令 (A 到 工 ) 的 程序 。 它 下 面 是 一 个 
CISC 计算 机 ， 它 的 时 钟 周 期 更 长 些 ( 因为 硬件 会 更 复杂 ， 因 此 变 慢 )， 以 差不多 同样 的 时 钟 周期 
数 完成 同样 的 处 理 ， 但 在 这 时 只 用 5 条 复杂 指令 取代 了 RISC 机 器 的 12 条 指令 。 由 于 时 钟 周 期 更 
长 ， 它 完成 任务 要 比 RISC 机 器 更 慢 。 这 是 通常 的 情况 ， 当 然 也 存在 其 他 条 件 ， 尤 其 是 对 更 小 的 
程序 ，CISC 处 理 器 能 够 计算 得 更 快 。 


[4 1 1 1 1 1 1 1 1 1 1 
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图 3-8 本 图 阐述 CISC 指令 和 RISC 指令 的 不 同 大 小 、 速 度 和 功能 。RISC 指令 (上面 
的 ) 都 很 短小 ， 每 条 占用 一 个 CPU 周期 ， 图 中 用 竖 线 标 出 。 相 反 ，CISC 指令 
(下 面 的 ) 需要 多 个 周期 执行 ， 通 常 每 条 指令 比 RISC 完成 更 多 的 功能 


然而 这 样 一 个 说 法 并 没有 描述 清楚 这 两 种 方法 的 前 后 关系 ， 因 此 我 们 需要 作 一 点 事后 解释 。 
从 历史 的 角度 来 看 ， 早 期 计算 机 的 使 用 者 都 是 其 设计 者 自己 。 设 计 者 知道 在 他 们 的 程序 中 需要 
什么 基本 操作 ， 并 把 这 些 直接 匹配 到 硬件 中 。 随 着 硬件 变 得 更 能 干 ， 添 加 新 指令 到 计算 机 中 成 为 
可 能 ， 这 个 新 指令 能 够 完成 原来 更 耗 时 的 一 个 指令 串 所 能 实现 的 功能 。 
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随 着 时 间 的 推移 ， 计 算 机 程序 员 专 注 于 软件 开发 ， 而 计算 机 架构 师 则 只 专注 于 硬件 方面 。 程 
序 员 会 找 架 构 师 要 求 自 定义 指令 以 使 他 们 的 程序 运行 更 快 。 架 构 师 通常 都 遵循 建议 ,， 但 有 时 他 
们 也 自作 主张 地 添加 他 们 认为 有 用 的 指令 ， 却 让 程序 员 摸 不 着 头脑 。 

到 20 世纪 80 年 代 中 期 ,各 种 设计 团体 ， 尤 其 是 美国 的 伯克利 大 学 和 斯 坦 福 大 学 ， 开 始 质疑 
当时 的 设计 理念 。 他 们 提出 这 个 观点 ， 可 能 基于 在 IBM 悄悄 进行 的 一 些 开 创 性 工作 ， 他 们 正在 
研究 简单 和 常规 设计 在 不 太 复杂 的 机 器 上 可 以 运行 更 快 的 时 钟 。 这 些 机 器 证 明了 简单 的 指令 可 
以 被 处 理 得 更 快 。 尽 管 有 时 多 条 RISC 指令 才能 完成 一 条 CISC 指令 的 功能 ,但 一 个 RISC 程序 总 
体 上 还 是 明显 运行 得 更 快 。 

“精简 指令 集 计算 机 ”这 个 名 字 先 扬 了 原始 设计 的 简单 性 ， 虽 然 没 有 实际 的 理由 要 减少 指 
集 的 大 小 ， 而 仅仅 是 要 降低 指令 复杂 性 。 这 些 团体 推广 RISC 技术 ， 随 之 产生 了 RISC 工 、 RISC 
了 以 及 MIPS 处 理 器 。 这 些 又 演变 为 能 够 提供 强大 工作 站 性 能 的 商业 机 器 ， 它 们 不 再 向 上 兼容 
x86 代码 ， 即 称 为 SPARC 和 MIPS 的 机 器 。 

同时 ， 在 英国 剑桥 大 学 的 橡 子 计算 机 有 限 公 司 (Acom Computers Ltd) ， 一 个 很 小 的 设计 小 组 
基于 早期 伯克利 的 研究 已 经 设计 了 他 们 自己 的 处 理 器 ， 该 公司 非常 成 功 地 制造 了 基于 6502 的 
BBC 微型 计算 机 (为 英国 做 出 了 贡献 ， 使 其 具有 世界 上 最 高 的 计算 机 拥有 率 ) 。 这 台 Acorm RISC 
Machine， 即 ARM]1 ， 是 基于 运行 BASIC 的 2MHz BBC 微型 计算 机 设计 的 。Acorn 为 这 款 处 理 器 编 
写 了 他 们 自己 的 芯片 设计 工具 ， 在 该 处 理 器 之 后 很 快 产生 了 ARM2 ， 成 为 世界 上 第 一 台 商业 RISC 
处 理 器 芯片 。 这 增强 了 新 兴 的 Acom 公司 的 计算 机 种 类 范围 。 到 2002 年 ，ARM ， 现 在 重新 命名 
为 Advanced RISC Machine， 成 为 世界 上 最 畅销 的 32 位 处 理 器 ， 宣 称 占 有 76. 8% 的 市 场 份额 。 到 
2005 年 中 期 ， 已 售 出 超过 25 亿美 元 的 ARM 处 理 器 产品 ， 到 2009 年 年 初 其 销售 数量 已 经 增长 到 
超过 地 球 上 人 和 手 一 个 的 程度 了 。ARM 处 理 器 的 普及 程度 还 在 继续 增加 。 框 3. 1 简要 介绍 了 惊人 
的 ARM 处 理 器 的 开发 背景 。 

当 Intel 坐 享 台式 个 人 计算 机 的 热潮 时 ，ARM 处 理 器 则 在 享受 伐 人 式 处 理 器 更 大 的 热潮 。 现 
在 CPU 几乎 存在 于 每 一 个 电子 产品 中 ， 而 其 中 大 部 分 都 是 基于 ARM 的 。 同 时 Acom 公司 现 已 不 
存在 ， 已 经 在 1999 年 注销 。 

ARM 是 如 何 设计 的 

在 20 世纪 80 年 代 中 期 ， 具 有 开创 性 的 英国 计算 机 公司 Acorn 和 英国 广播 公司 (BBC) 签订 了 合同 要 设 
计 并 推销 BBC 的 微型 计算 机 ， 当 时 该 公司 正在 寻找 一 种 方法 来 超越 其 获得 巨大 成 功 的 8 位 BBC 微型 计算 机 。 
精简 、 高 效 的 Rockwell 6502 处 理 器 推动 了 这 一 设计 。BBC 的 举措 大 大 促进 了 计算 机 在 英国 的 使 用 ， 据 报道 ， 
英国 的 人 均 计 算 机 数量 远 远 超过 了 世界 上 其 他 地 方 。 例 如 ，Clive Sinclair 萎 士 的 ZX 系列 计算 机 已 经 卖 了 400 
万 台 ， 而 那 时 IBM PC 的 销售 只 达到 100 万 台 。Acom 公司 也 总 共 售 出 了 超过 100 万 台 的 BBC 计算 机 。 

在 “计算 机 革命 ”的 早期 ，Acorn 公司 很 快意 识 到 ， 来 自如 Intel 和 Motorola 等 公司 的 16 位 处 理 器 已 经 不 
够 强大 ， 无 法 满足 他 们 预计 的 未 来 需求 一 一 包括 在 20 世纪 80 年 代 晚 期 发 布 世界 上 第 一 个 多 任务 图 形 桌 面 操 
作 系 统 《 后 来 一 些 观察 家 得 出 结论 ， 这 被 微软 公司 抄 费 并 成 为 Windows 95 、XP 及 后 续 操作 系统 的 基础 ) 。 

由 于 没有 足够 好 的 处 理 器 ，Acom 决定 以 典型 的 创业 方式 ,创造 自己 的 处 理 器 。 他 们 在 两 年 内 设计 了 
ARMI 以 及 它 的 支持 IC 《如 MEMC 和 VIDC) ， 尽 管 他 们 之 前 从 未 进行 过 任何 芯片 开发 。 

Acorn 希望 设计 一 个 常规 体系 结构 的 机 器 一 一 类 似 于 6502， 但 功能 要 异常 强大 。 他 们 选择 采用 RISC 方 
法 ， 还 通过 分 析 操 作 系 统 代码 重新 审视 了 软件 需求 ， 确 定 了 最 常用 的 指令 ， 并 为 ARM 处 理 器 做 了 指令 优 
化 。 他 们 用 同样 的 方法 得 到 一 个 指令 集 ( 见 3.3 节 ) 及 其 编码 。 后 来 由 于 迫切 需要 又 增加 了 乘法 指令 和 乘 
累加 指令 。 

全 球 知名 的 ARM 处 理 器 恰好 符合 英国 政府 基金 资助 的 BBC 项 目的 初衷 ， 实 现 了 多 种 优秀 的 功能 : 
ARM 软件 中 断 、 监 控 模 式 、 快 速 中 断 、 无 微 指令 、 静 态 流 水 线 以 及 load- store 体系 结构 ， 所 有 这 些 都 从 
Acorn 所 采用 的 软 硬 件 体系 结构 中 派生 出 来 。 
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3.2.7 处 理 器 实例 


多 年 来 ， 自 从 IBM 研究 小 组 发 表 了 他 们 的 初步 结果 ，RISC 方法 已 经 影响 了 处 理 器 设计 的 几 
乎 所 有 领域 ， 尤 其 是 ARM RISC 处 理 器 家 族 ， 现 在 主宰 着 嵌入 式 系统 的 世界 。 因 此 ， 本 书 中 ， 几 
乎 所 有 的 汇编 语言 代码 例子 都 是 以 ARM 的 汇编 格式 给 出 。 例 如 : 

ADD RO，R1，R2 
是 把 寄存 器 R1 和 R2 的 内 容 相 加 ， 结 果 保 存在 寄存 器 RO 中 。 

今天 ,虽然 很 容易 找到 “ 纯 ”RISC 处 理 器 的 例子 ， 如 ARM 和 MIPS， 但 甚至 铁杆 的 CISC 设 
备 〈 如 Motorola 68000 或 Freescale Coldfire 和 一 些 Intel x86 系列 ) 现在 也 是 由 CISC 到 RISC 硬件 
翻译 和 RISC 内 核 来 实现 的 。“ 纯 ”CISC 处 理 器 现在 看 来 并 不 受 追 捧 ， 出 于 这 个 原因 ， 当 提 到 
CISC 处 理 器 时 我 们 是 定义 了 一 个 伪 ARM 汇编 格式 ， 而 不 是 使 用 任何 专门 CISC 设备 的 格式 ; 

ADD A, B, C 
把 寄存 器 B 和 C 的 值 相 加 ， 结 果 放 到 寄存 器 A 中 。 通 常 这 里 的 例子 都 能 被 识别 出 是 RISC 的 还 是 
CISC 的 ， 它 们 是 有 区 别 的 ， 因 为 RISC 例子 使 用 ARM 型 的 寄存 器 RO 到 R15， 而 CISC 例子 使 用 
字母 寄存 器 A、B、C 等 。 某 些 特殊 用 途 的 寄存 器 在 后 面 的 章节 中 也 会 提 到 ，SP 是 堆栈 指针 ，LR 
是 连接 寄存 器 。 

本 书 中 伪 ARM 指令 使 用 的 唯一 一 个 例外 是 在 讨论 有 关 AD (Analog Devices) 公司 的 AD- 
SP21xx 处 理 器 和 单独 的 德州 仪器 (TI) 的 TMS320 例子 时 。 尤 其 是 ADSP 使 用 的 汇编 语言 其 格式 
类 似 于 C 编程 语言 ， 因 此 相当 易 读 。 这 些 例 外 将 会 在 介绍 其 代码 段 时 突出 显示 。 

注意 某 些 处 理 器 ， 尤 其 是 68000， 实 际 上 是 最 后 指定 目的 寄存 器 ， 而 不 是 像 ARM 那样 最 先 
指定 。 然 而 ， 本 书 中 目的 寄存 器 都 是 以 ARM 风格 指定 的 ， 且 任何 注释 都 跟 在 分 号 (“;”) 后 面 : 

SUB R3, R2, RI ;R3=R2-RI 
有 时 目的 寄存 器 和 第 一 个 源 寄存 器 是 同一 个 : 

ADD CC, D ;C=C+D 
或 者 可 能 只 有 一 个 源 寄存 器 : 

NOT EE, F ;E=notF 
或 者 可 能 没有 源 寄 存 器 : 

B R3 ; 跳 转 至 包含 华 R3 中 的 地 十 

通常 指令 本 身 是 能 够 表明 其 含义 的 (如 ADD、AND、SUB 等 )。 后 面 一 节 将 介绍 更 多 的 例 
子 ， 并 详细 介绍 ARM 指令 格式 ， 包 括 所 有 指令 的 列表 。 

在 ARM 中 ， 还 要 小 心目 的 寄存 器 在 所 有 的 指令 中 都 是 第 一 个 指定 的 ， 只 是 在 内 存 中 写 指令 
是 不 同 的 : 

STR R1, [R31 


将 R1 的 值 存 到 以 R3 中 内 容 为 内 存 地 址 的 位 置 。 


3.3 指令 处 理 

正如 3. 2 节 所 述 ， 计算 机 都 是 通过 称 为 程序 的 指令 序列 执行 的 。 通 常 称 这 些 程序 为 软件 。 使 
用 高 级 语言 (HLL) 可 以 编写 出 各 种 软件 ， 每 条 高 级 语言 命令 可 能 由 数 十 条 CPU 指令 序列 组 成 。 
低级 语言 的 一 条 命令 通常 都 只 调用 很 少 或 者 只 有 一 个 CPU 操作 。 

如 果 我 们 将 一 个 CPU 操作 定义 为 由 CPU 执行 的 数据 移动 或 者 逻辑 处 理 ， 那 么 一 条 指令 是 从 
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程序 到 CPU 的 一 个 命令 (会 导致 一 个 或 多 个 CPU 操作 ) 。 一 条 高 级 语言 命令 是 由 一 条 到 多 条 指 
令 组 成 的 ， 一 个 存储 在 计算 机 上 的 程序 是 这 样 的 指令 序列 集合 。 

在 某 些 计算 机 上 ， 一 个 单一 的 指令 可 用 于 调用 多 个 CPU 操作 。 这 可 能 是 由 性 能 方面 的 原因 
决定 的 ， 元 其 体现 在 访问 速度 上 ， 从 外 部 存储 器 上 读 取 程序 的 速度 远 比 CPU 执行 这 些 操 作 要 慢 
很 多 。 事 实 上 ， 以 前 正 是 这 种 思想 导致 了 微 指令 的 出 现 (已 经 在 3.2.5 节 中 探讨 过 ) 。 

机 器 代码 通常 指 的 是 与 CPU 内 已 知 动作 相对 应 的 二 进 制 数字 标识 符 。 这 可 能 意味 着 ， 例 如 ， 
当 你 检查 程序 内 存 时 ， 十 六 进 制 字 节 数 0x4E 及 其 后 的 0xA8 可 能 代表 了 两 条 8 位 处 理 器 指令 ， 也 
可 能 代表 一 条 16 位 处 理 器 指令 0x4EA8 。 对 于 现代 的 处 理 器 ， 程 序 员 几乎 不 需要 应 付 处 理 器 所 能 
理解 的 底层 二 进 制 数字 标识 符 ， 而 是 通过 一 套 称 为 汇编 语言 或 者 汇编 码 的 缩写 助 记 符 来 进行 处 
理 。 高 级 语言 程序 被 编译 成 可 执行 程序 时 生成 和 存储 的 正 是 这 些 代码 。 

站 令 集 是 一 系列 可 能 的 汇编 语言 助 记 符 ， 是 某 具 体 CPU 所 支持 的 所 有 指令 的 列表 。 


3.3.1 指令 集 


指令 集 描述 了 CPU 所 能 执行 的 操作 集合 ， 每 个 操作 都 由 指令 集中 的 一 条 指令 来 编码 。 某 些 指 
令 需要 一 个 或 多 个 操作 数 (例如 ,在 指令 ADD A，B，C 里 ，A、B 和 C 被 称 为 源 操作 数 和 目标 操 
作 数 ， 这 些 操作 数 可 能 是 立即 数 、 寄 存 器 、 内 存 位 置 或 者 其 他 可 用 的 寻 址 方式 一 一 详 见 3.3.4 节 )。 
通常 操作 数 有 类 型 和 取 值 范围 的 限制 ， 例 如 ， 移 位 指令 所 能 移动 的 最 大 位 数 受 移 位 硬件 限制 。 

指令 集 包含 所 有 的 指令 ， 从 而 能 够 完全 描述 处 理 器 硬件 的 处 理 能 力 。 指 令 集 可 按照 命令 所 
涉及 的 处 理 器 单元 的 不 同 而 进行 分 组 ， 例 如 下 面 为 ADSP2181 处 理 器 所 定义 的 指令 集 : 








指令 分 组 组 内 操作 举例 
ALU 加 、 减 、 膛 辑 与 、 逻 辑 或 等 
MAC 乘法 、 乘 累加 等 
SHIFT 算术 /逻辑 的 左 移 / 右 移 、 指 数 运算 等 
MOVE 寄存 器 寄存器、 内存 寄存器、 寄存器 /内 存 、 输 入 /输出 等 
PROGRAM FLOW 分 支 / 跳 转 、 调 用 、 返 回 、 循 环 等 
MISC 空闲 模式 、 无 操作 指令 、 堆 栈 控制 、 配 置 等 


许多 处 理 器 还 会 添加 一 个 FPU 组 或 MMX 组 到 指令 集 定义 中 , 但 是 ADSP2181 是 只 支持 定点 
而 没有 多 媒体 扩展 的 处 理 器 。 

ARM 处 理 器 的 指令 集 ， 确 切 地 说 是 ARM7 ， 以 表格 形式 在 图 3-9 中 列 出 供 大 家 参考 (请 注 
意 ， 该 表 列 出 了 ARM 格式 的 指令 ， 但 不 包括 很 多 ARM 处 理 器 支持 的 16 位 Thumb 模式 ) 。 该 指 
令 集 表 中 使 用 的 记号 包括 : 

。 S 第 20 位 ,标志 着 指令 应 该 根据 完成 情况 更 新 条 件 标志 位 〈 和 参见 框 3.2) ; 

。S 第 6、22 位 ， 标 志 着 转移 指令 是 否 该 恢复 状态 寄存 器 ; 
乘法 是 表示 有 符 导 /无 符号 ， 数 据 传 输 是 表示 向 上 /向 下 修改 索引 ; 
立即 寻 址 的 指示 位 ; 
结果 累加 /不 累加 ; 

无 符号 字 节 / 字 ，; 

写 回 ; 

读 / 存 ; 

向 前 和 向 后 、 递 增 和 递减 运算 符 ; 

指明 16 个 寄存 器 中 的 一 个 ; 

。 CR 指示 一 个 协 处 理 器 寄存 器 (可 识别 的 8 个 协 处 理 器 中 的 一 个 ) 。 


® 
TNP 有 Hm" Oo 
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31302928 27 26 25 24 23 22 21 20 19 18 17 16 1 14 13 12 11 10 9 8 7 6 S 4 3 2 1 0 
条 件 标志 位 | 0|111|1x|x x|x|x|x x|x|[x x|x x | x X x | x xj|x|x|x|1l|x x |x |x 未 定义 
条 件 标志 位 | 0| 0 1| 操作 码 |S Rn Rd 第 二 操作 数 数据 处 理 
条 件 标志 位 | 1| 0| 1 |L 目的 数 偏 移 地 址 分 支 
条 件 标志 位 | 0|010|0|0[olAlS| Rn | Rd Rs 11ofol1| Rm 乘 
条 件 标志 位 | 0| 0 10 0|1 UIAIS RdHi RdLow Rn 1|ololrt Rm 长 乘 
条 件 标志 位 | 0| 111|PIUIBIw Rn Rd address offset LDR/STR 
条 件 标志 位 | 0| 0|01P|U i Rn Rd | offset 1ISiHIl otiset 半 字 传输 
条 件 标志 位 | 0| 0101PIU|0 Wu Rn Rd ofofofolilsiHlil Rm 半 字 传输 
条 件 标志 位 | 1 | 0|0| Pu s wy Rn 寄存 器 表 块 传输 
条 件 标志 位 | 0|10|0| Lo0|oj ollUIIJoolol Rn BX 
条 件 标志 位 | 01 01011101B,010 Rn | Rd ojolololiloioll Rm 单数 据 交换 
条 件 标志 位 | 11110|PIUINIWU Rn CRd CP no. offset 1 Lpc 
条 件 标志 位 | 1| 1 | 1 1 0 | CP 操作 码 CRn CRd CPno. CP |10| CRm CDP 
条 件 标志 位 | 1 1 | 0 ICP 操 作 码 L CRn Rd 十 CP no. CP |2| CRm MCR 












































图 3-9 ”ARM 指令 集 列 表 。 列 的 上 面 标 出 了 指令 字 的 位 。 表 中 列 出 了 某 版 本 ARM 指令 集中 所 有 的 14 类 指令 


这 些 修 饰 符 多 数 是 ARM 处 理 髓 专用 的 ， 这 里 不 再 进一步 讨论 ,但 我 们 会 详细 关注 位 “S” 以 及 
寻 址 能 力 ( 见 3.3.4 节 )。 有 兴趣 的 读者 可 以 参考 ARM 公司 的 网 站 ? ， 那 里 有 更 多 的 解释 和 文档 资料 。 
不 同 的 ARM 处 理 器 之 间 的 指令 集 略 有 不 同 ， 上 面 给 出 的 版 本 是 较 常用 的 ARM7TDMI 版 本 = 。 

近日 ，ARM 公司 已 经 完成 了 品牌 的 重 塑 ， 在 此 过 程 中 将 他 们 的 处 理 器 命名 为 目前 知名 的 
Cortex。 原 来 的 ARM7 、ARM9 和 ARM11 处 理 器 被 冠 以 “经 典 “ 。 想 必 这 一 举动 对 整合 巨大 的 
ARM 市 场 做 出 了 努力 ， 需 要 一 个 基本 的 体系 结构 (如 ARM) 能 够 覆盖 广阔 的 范围 和 多 样 的 需 
求 ， 其 范围 从 微小 、 慢 速 的 传感器 系统 到 更 大 、 更 快 的 掌上 计算 机 。 在 撰写 本 书 的 时 候 ， 新 的 处 
理 器 被 归 类 成 三 个 范围 ， 更 好 地 细 分 了 ARM 设备 的 传统 优势 领域 : 

Cortex- A 系列 处 理 器 是 面向 应 用 的 。 它 们 有 内 置 的 硬件 支持 ， 适 合 于 运行 丰富 的 现代 操作 系 
统 如 Linux， 及 图 形 丰 富 的 用 户 界面 ， 如 Apple 的 i0S 和 Google 的 Android。 它 们 能 够 处 理 从 高 效 
的 Cortex- A5 到 A8 、A9 直到 最 高 性 能 的 Cortex- A15 设备 。 这 些 处 理 器 都 支持 ARM、Thumb 和 
Thumb-2 指令 集 (Thumb-2 据说 在 性 能 和 紧凑 性 方面 对 Thumb 做 了 改进 ) 。 

Cortex-R 系列 处 理 器 针对 的 是 有 高 性 能 要 求 的 实时 系统 。 它 们 包括 智能 手机 、 媒 体 播放 器 和 上 照 
相机 。ARM 公司 也 在 推进 Cortex- R 系列 在 汽车 及 医疗 系统 中 的 应 用 ， 在 这 种 应 用 中 可 靠 性 和 硬 实 
时 反应 能 力 往往 很 重要 。 这 些 不 需要 复杂 、 丰 富 的 操作 系统 ， 而 只 要 小 的 、 硬 性 且 快 速 的 实时 系 
统 。 在 写作 本 书 的 时 候 ， 只 发 布 了 Cortex-R4， 并 已 找到 了 其 在 全 球 许多 实时 系统 中 的 使 用 方式 。 

Cortex-M 系列 处 理 器 属于 低 端 产品 ， 用 于 比较 在 意 成 本 且 要 求 低 功 耗 的 系统 中 ， 可 以 说 它 适 
用 于 传统 的 微 控 制 器 型 应 用 ， 不 需要 先进 的 操作 系统 支持 〈 甚 至 可 能 不 需要 任何 操作 系统 ) 。 该 
系列 适用 于 没有 丰富 图 形 界面 要 求 、 时 钟 速度 不 会 超过 几 十 兆赫 兹 的 应 用 。 撰 写本 书 时 ，Cortex- 
M0 是 人 门 级 芯片 ， 此 外 还 有 Cortex-M3 和 Cortex- M4 可 提供 更 好 的 性 能 。 

尽管 大 多 数 ARM7 的 变种 可 支持 16 位 Thumb 模式 ( 见 3.3.3 节 ), 但 所 有 的 ARM 芯片 都 支持 
上 面 所 述 的 标准 32 位 定 长 指令 。 我 们 看 到 在 ADSP21xx 中 有 各 种 指令 组 ， 如 数据 处 理 、 乘 法 或 分 支 
等 。 如 果 有 15 个 指令 组 ， 则 需要 4 位 编码 来 表示 指令 组 ， 其 余 的 位 用 来 表示 每 组 中 具体 的 指令 。 

注意 所 有 的 指令 都 有 固定 的 条 件 位 ， 无论 哪个 指令 正在 使 用 ， 条件 位 都 位 于 指令 字 的 同一 
位 置 ， 这 种 规则 有 助 于 处 理 器 的 指令 译 码 。 重 要 的 是 要 注意 ， 条 件 位 的 意义 是 使 每 一 个 指令 都 可 





© http:Awww. arm como 
名 ”此 信息 是 从 ARM 公司 公开 的 文件 DDI 0029E 中 提取 的 。 
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以 有 条 件 地 操作 。 这 是 不 寻常 的 ， 在 常见 的 现代 处 理 器 中 只 有 ARM 是 这 样 的 : 大 多 数 其 他 处 理 
器 只 支持 条 件 分 支 指令 。 在 ARM 上 ， 指 令 字 中 的 $ 位 控制 该 指令 在 完成 时 是 否 可 以 改变 条 件 代 
码 〈 见 框 3.2)。 这 两 个 特点 相互 配合 使 用 ， 是 非常 灵活 和 高 效 的 。 
还 要 注意 ， 对 每 一 条 指令 ， 目 的 寄存 器 (如 果 需 要 ) 都 在 指令 字 中 辐 样 的 位 置 ， 这 一 规则 
也 简化 了 译 码 处 理 。 
ARM 中 的 条 件 和 S 位 说 明 
考虑 ARM 处 理 器 的 效率 ， 与 神话 般 的 标准 RISC 处 理 器 (其 所 有 指令 都 不 允许 条 件 操作 ) 作 比 较 。 
使 用 的 指令 助 记 符 类 似 于 ARM (但 不 完全 类 似 )。 首 先 ， 我们 测试 在 标准 RISC 处 理 器 上 的 程序 ， 将 寄 
存 器 RO 和 寄存 器 R1 中 的 值 相 加 ， 然 后 根据 计算 结果 判断 ， 如 果 计 算 结果 小 于 0 则 将 0 放 入 寄存 器 R2， 否 
则 将 1 放 入 寄存 器 R2。 
ADDS RO，RQ，R1L 
BLT posl ”如 果 小 于 0 则 执行 分 支 
MOV R2, #1 
B pos2 
posl MOV R2, #0 
BOS Kin 


该 程序 使 用 5 条 指令 且 无 论 寄存 器 RO 和 R1 中 为 何 值 ， 总 会 需要 一 个 分 支 。 

下 面 的 代码 段 在 ARM 处 理 器 中 再 现 了 相同 的 行为 ， 但 使 用 了 条 件 转移 代替 分 支 。 在 这 种 情况 下 ，RO 
和 R1 相 加 ,在 ADD 助 记 符 之 后 的 S 表 明 加 法 的 结果 会 更 新 内 部 条 件 标 志 。 接 下 来 ， 如 果 前 一 个 条 件 编 码 
设置 指令 的 结果 小 于 0， 则 把 1 写 入 R2; 如 果 结 果 大 于 等 于 0， 则 把 0 写 入 R2。 

ADDS RO0, RO, R1 

MOVLT R2, #1 

MOVGE R2, #0 


ARM 版 本 的 代码 显然 更 短 只 需要 3 条 指令 ， 且 不 需要 分 支 结 构 。 正 是 这 种 机 制 使 得 ARM 的 程序 
更 高 效 ， 而 RISC 处 理 器 却 是 传统 低 效 率 的 代码 密度 。 在 更 高 级 的 语言 中 ， 这 种 代码 结构 则 很 常见 ; 
IF condition THEN 
action 1 
ELSE 
action 2 


3. 3. 2 ” 取 指 和 译 码 


在 一 个 现代 计算 机 系统 中 ， 正 在 运行 的 程序 通常 驻 留 在 RAM 中 〈 它 们 可 能 是 从 硬盘 或 内存 
复制 到 这 里 的 ) 。 一 个 内 存 控制 器 ， 通常 是 内 存 管理 单元 (将 在 4.3 节 讨 论 ) 的 一 部 分 ， 控 制 外 
部 RAM 并 代表 CPU 处 理 内 存 访问 。 

在 CPU 内 部 ， 取 指 和 译 码 单元 (IFDU 或 简写 为 TU) 在 每 个 指令 周期 读 取 下 一 条 待 执行 的 
指令 。 下 一 条 指令 由 地 址 指针 来 确定 ， 地 址 指针 保存 在 程序 计数 器 (PC) 中 ， 现 在 几乎 每 一 款 
处 理 器 都 是 如 此 。 程 序 计 数 器 通常 在 指令 被 读 取 后 自动 增加 ,但 当 有 跳 转 或 分 支 发 生 时 会 被 新 
值 履 盖 。 这 些 如 图 3-10 所 示 。 









AVNOS 
WVAdgs 


图 3-10 此 图 显示 了 一 个 典型 CPU 系统 中 内 存 控 制 器 的 连接 关系 
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一 旦 取 指 和 详 码 单元 读 取 了 一 条 指令 ， 它 便 开始 进行 解码 ， 随 后 经 过 一 系列 如 图 3-11 的 流 [84 
程 图 所 示 的 步骤 。 , 


85 
指令 译 码 Bp 取 操 作 数 J 执行 指令 


图 3-11 典型 处 理 器 的 指令 处 理 流程 图 


3. 3. 2.1 指令 译 码 

在 ARM 中 ， 因 为 所 有 的 指令 都 是 有 条 件 的 ， 所 以 IFU 首先 看 指令 编码 中 的 条 件 位 ， 与 当前 
处 理 器 状态 寄存 器 中 的 条 件 标志 按 位 比较 。 如 果 这 条 指令 需要 的 条 件 和 当前 条 件 标志 不 匹配 ， 
则 丢弃 该 指令 ， 读 取 下 一 条 指令 。 

在 ARM 中 ， 指 令 集 的 简化 意味 着 每 一 个 读 取 的 指令 字 的 条 件 位 可 以 与 状态 寄存 器 的 第 28 位 
到 第 31 位 进行 简单 与 运算 〈 这 几 位 是 当前 条 件 标志 的 编码 )。 框 3. 3 解释 了 ARM 中 可 用 的 相当 
广泛 的 条 件 码 集合 。 

ARM 处 理 器 中 的 条 件 码 

如 图 3-9 所 示 ，ARM 为 每 条 指令 保留 4 位 (第 31、30、29 和 28 位 ) 用 于 条 件 编码 。 这 意味 着 每 一 条 
机 器 指令 都 可 以 是 有 条 件 执行 的 〈 虽 然 用 汇编 语言 编写 时 某 些 指令 可 能 不 带 条 件 ) 。 

通常 ， 这 些 条 件 码 是 被 附加 到 指令 上 的 ， 因 此 ADDGT 是 一 条 ADD 指令 ， 只 有 当 处 理 器 的 条 件 标志 表 
明 用 于 设置 该 条 件 标志 的 上 一 条 指令 的 结果 大 于 0 时 才 会 执行 。 

ARM 中 条 件 的 全 集 如 下 表 所 示 〈 严 格 来 讲 最 后 两 个 是 无 条 件 的 条 件 !1) 。 


4 位 条 件 编码 
0000 
0001 

































































(N= ~V)orZ=1 


























我 们 再 看 一 下 ARM 指令 集 ， 所 有 指令 字 中 的 目的 寄存 器 (对 于 有 目的 地 址 的 指令 ) 都 位 于 同 
样 的 位 置 。 译 码 时 ，IFU 简单 地 采用 4 位 (用 于 寻 址 16 个 寄存 器 ) 作为 寄存 器 组 的 目的 地 址 。 
3. 3. 2. 2 ” 取 操 作 数 

显然 ， 操 作 数 的 值 并 不 总 是 在 指令 字 本 身 的 编码 中 。ARM 和 和 多数 其 他 的 RISC 处 理 器 都 通过 
使 用 load-store 体系 结构 进行 简化 ， 内 存 中 的 操作 数 不 能 直接 提供 给 操作 一 一 它们 必须 先 转移 到 
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寄存 器 中 。 只 有 立即 数 是 例外 ， 立 即 数 是 作为 数据 传送 指令 的 一 部 分 编码 的 ， 如 MOV 指令 ( 见 
框 3.4 中 的 例子 ) 。 

所 以 ARM 为 一 个 操作 准备 操作 数 通常 是 通过 从 指令 字 中 解码 一 个 立即 数 ， 或 者 从 一 个 或 多 
个 源 寄存 器 或 目标 寄存 器 中 进行 选择 。 一 个 例外 是 加 载 (LDR) 和 保存 (STR) 指令 ， 它 们 实现 
内 存 和 寄存 器 之 间 32 位 值 的 移动 。 

在 许多 其 他 的 处 理 器 中 〈 通 常 是 CISC 体系 结构 而 不 是 RISC) ， 可 能 执行 一 条 指令 就 能 够 完 
成 一 个 内 存 地 址 中 数据 的 菜 些 运算 并 将 结果 写 回 到 另 一 个 内 存 地 址 。 显 然 在 这 样 一 个 处 理 器 中 ， 
来 回 移动 操作 数 将 需要 一 次 到 两 次 内 存 访问 ， 由 于 RISC 处 理 器 的 目标 是 尽量 在 一 个 时 钟 周 期 内 
完成 每 条 指令 ， 因 此 这 种 操作 是 不 可 能 的 。 

3. 3.2.3 分 支 

在 ARM 指令 集 的 分 支 指令 组 中 ， 正 如 所 料 ， 其 所 有 的 条 件 指令 与 其 他 处 理 器 的 分 支 指令 是 
一 样 的 。 在 分 支 指令 中 , 第 24 ~27 位 是 表示 指令 属于 分 支 指令 组 的 唯一 标识 。L 位 用 来 区 分 是 
跳 转 指令 还 是 调用 指令 (ARM 术语 中 称 之 为 branch-and-link ， 其 中 link 意味 着 返回 地 址 放 在 连接 
寄存 器 LR 中 ， 在 分 支 情况 下 放 在 R14 中 ) 。 除 了 指令 类 型 需要 4 位 编码 以 外 ， 还 需要 4 位 编码 
条 件 码 ， 所 以 只 翻 下 24 位 ， 这 24 位 称 为 偏 移 量 〈offset) ， 它 们 标明 跳 转 到 何 处 一 一 上 且 的 地 指令 
地 址 将 会 放 在 程序 计数 妖 中 。 

由 于 ARM 是 32 位 处 理 器 ， 所 以 其 指令 字 是 32 位 宽 。 但 是 内 存 只 有 一 个 字 节 宽度 ， 这 样 一 
条 指令 占用 4 个 连续 的 内 存单 元 。ARM 的 设计 者 要 求 指令 不 能 随便 在 某 个 地 址 开始 ， 而 只 能 在 4 
字 节 边界 处 开始 ， 即 地 址 为 0、4、8、12 等 。 所 以 偏 移 量 是 指 4 字 节 的 块 。 

现在 计算 机 体系 结构 中 通常 有 两 种 方式 指定 跳 转 地 址 ， 绝 对 地 址 和 相对 地 址 。 绝 对 地 址 是 
指 完整 的 内 存 地 址 ， 而 相对 地 址 是 指 从 当前 位 置 向 前 或 向 后 偏 移 一 定数 量 。 随 着 计算 机 内 存 空 
间 越 来 越 大 ， 指 定 绝对 地 址 已 经 无 法 实现 一 一 局 部 性 原理 ( 见 4.4.4 节 ) 指出 分 支 的 距离 通常 
会 比较 小 ， 与 指定 整个 绝对 跳 转 地 址 相 比 只 需要 较 少 的 位 数 ( 实 际 上 在 ARM 中 使 用 了 28 位 ) 
即 可 指定 。 

再 回 到 ARM ， 跳 转 地 址 被 称 为 偏 移 量 ， 意 味 着 它 必 须 是 一 个 和 当前 程序 计数 器 中 位 置 相关 
的 跳 转 。 对 于 24 位 偏 移 量 ， 可 表示 的 跳 转 范围 是 2 个 字 ， 为 内 存 的 64MiB。 当 然 偏 移 量 必须 是 
有 符号 数 ， 这 样 可 以 向 前 〈 如 在 循环 中 ) 和 向 后 跳 转 ， 因 此 跳 转 范围 应 该 是 + 32MiB。 

有 限 的 跳 转 范围 是 否 成 为 一 种 限制 ? 答案 通常 不 是 。 尽 管 代 码 疯狂 地 膨胀 ， 甚 至 在 撰写 本 书 
时 就 如 此 ， 但 单个 的 程序 通常 不 会 超过 64MiB 长 度 。 因 此 ， 这 可 能 是 ARM 的 设计 者 们 为 照顾 到 
指令 的 绝 大 多 数 跳 转 要 求 而 设置 的 限制 。 

然而 一 个 32 位 内 存 总 线 允 许 最 多 编 址 4GiB 的 内 存 空间 ， 这 远 远 大 于 地 址 跳 转 的 能 力 ， 因 此 
如 果 需 要 一 个 70MiB 的 跳 转 ， 该 如 何 实现 呢 ? 

在 这 种 情况 下 ，ARM 提供 一 个 分 支 交 换 (branch and exchange) 指令 。 用 这 条 指令 ， 目 的 地 
址 首先 被 加 载 到 一 个 寄存 器 〈32 位 宽 ) 中 ， 然 后 这 条 指令 发 出 命令 跳 转 到 该 寄存 器 所 保存 的 这 
个 地 址 。 当 然 ， 新 的 问题 又 来 了 ， 寄 存 器 自己 如 何 加 载 一 个 32 位 数 呢 ?3. 3.4 节 将 讨论 寻 址 模 
式 ， 其 中 一 种 是 立即 数 一 一 数值 作为 指令 的 一 部 分 被 编码 。 框 3.4 中 也 讨论 了 在 MOV 指令 中 如 
何 加 载 立 即 数 。 
理解 ARM 中 的 MOYV 指令 

和 所 有 ARM 指令 一 样 ，MOV 也 是 32 位 长 ， 它 的 格式 如 下 : 


| 4 位 条 件 码 | 0 0 1 | 操作 码 | S | Rn | Rd | 4 位 循环 次 数 8 位 立即 数 


或 者 
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4 位 条 件 双 | 0 | 0 | 。 | 操作 码 | s | Rn | ma 立即 数 /寄存 器 移 位 和 Rm 

















4 位 条 件 码 在 所 有 ARM 指令 中 都 有 ， 操 作 码 (opcode) 定义 数据 处 理 类 的 确切 指令 ，Rn 是 第 一 个 操 
作 数 寄存 器 ，Rd 是 第 二 个 操作 数 寄存 器 ， 通 过 设置 第 25 位 为 1 来 选择 ，Rm 是 第 三 个 操作 数 寄存 器 。 

我 们 将 主要 针对 第 一 种 命令 格式 ， 这 里 提供 了 一 个 8 位 的 立即 数 和 一 个 4 位 的 循环 次 数 ( 实 际 的 循环 
次 数 是 给 定 值 的 两 倍 ) 。 其 中 操作 码 (opcode) 被 指定 为 MOV 指令 ， 立 即 数 经 过 指定 次 数 的 循环 移 位 后 加 
载 到 目的 寄存 器 。 下 面 是 几 个 例子 : 

MOV R5, #0xFF ;Rd=5, Rn=0, rotation = 0, value = 0xFF 

MOV R2, #0x2180 ;Rd=2, Rn=0, rotation=2,value=0x43 (加 载 值 : 0x43<4) 

注意 : 对 这 些 MOV 指令 ，Rn 由 于 没有 用 到 因而 总 被 置 0。 

问题 ; 处 理 吕 如何 将 一 个 寄存 器 设 为 值 0xFOFFFFFF? 

答案 : 程序 员 可 能 会 写成 : 

MOV RO, #0xFOFFFFFF 

但 汇编 器 可 能 会 警告 (“ 立 即 数 的 值 太 大 ”或 类 似 的 信息 ) ， 因 为 指定 的 32 位 值 无 法 放 进 8 位 寄存 器 ， 
无 论 进行 怎样 的 移 位 。 某 些 汇 编 器 或 有 经 验 的 程序 员 知 道 将 其 转换 为 一 个 “move NOT” 指令 : 

MVN RO, #0x0F000000 ;Rd=0,Rn=0,rotation= 12,value=0xOF 

正如 你 所 看 到 的 ， 尽 管 指令 字段 内 只 能 容纳 相对 较 小 的 立 芭 数 ， 但 结合 指令 的 灵活 性 和 移 位 ， 实 际 上 
可 以 编码 相当 大 范围 的 常数 。 
3.3.2.4 立即 数 

问题 是 ， 用 32 位 的 指令 字 ， 不 可 能 传送 一 个 32 位 的 常数 以 及 专用 条 件 位 、 目 的 寄存 器 、S 
位 等 信息 。 因 此 立即 数 〈 编 码 在 指令 中 的 值 ) 必须 小 于 32 位 。 
































在 ARM 中 ,立即 数 通过 MOV 指令 〈 属 于 数据 处 理 指令 组 ) 加 载 到 一 个 寄存 器 。 立 即 数 可 
以 放 到 ARM 指令 集 (图 3-9) 中 标 为 “第 二 个 操作 数 ” 的 位 置 ， 但 不 是 所 有 的 操作 数位 都 用 于 
存放 立即 数 ， 实 际 上 ， 只 有 8 位 用 于 立即 数 ， 剩 下 的 4 位 用 来 指定 循环 移 位 次 数 。 
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因此 ， 虽 然 处 理 器 有 32 位 的 寄存 器 ， 但 只 能 加 载 8 位 数字 。 但 由 于 有 循环 移 位 机 制 〈 用 4 
位 表示 循环 ， 可 指定 向 左 或 向 右 的 15 个 位 置 ) ， 可 以 获得 很 大 范围 的 数字 。 框 3.4 详细 展示 了 
ARM 处 理 器 中 MOV 指令 的 位 字段 ， 我 们 可 以 看 到 其 如 何 影响 指令 的 灵活 性 。 

许多 处 理 器 的 工作 方式 不 同 。 它 们 通常 允许 一 次 加 载 至 少 16 位 的 立即 数 ， 这 16 位 是 作为 指 
令 字 的 一 部 分 编码 的 。CISC 处 理 器 常常 是 可 变 长 度 的 指令 ， 或 者 使 用 两 个 连续 的 指令 。 一 个 变 
长 指令 在 加 载 8 位 常数 时 可 能 是 16 位 长 的 ， 当 加 载 16 位 或 24 位 常数 时 可 能 是 32 位 长 的 。 变 长 
日 令 要 求 取 指 单元 非常 复杂 ， 因 此 得 到 同样 结果 的 更 简单 方法 是 使 用 两 条 连续 的 指令 。 第 一 条 
指令 可 能 表示 “ 取 下 一 条 指令 中 的 数 到 寄存 器 R2”， 因 此 IFU 只 需 直接 读 取 下 一 个 值 放 到 寄存 
器 ， 而 不 用 再 进行 译 码 。 这 显然 意味 着 某 些 指令 需要 两 个 指令 周期 完成 ， 从 而 带 来 时 间 人 代价， 无 
其 是 在 流水 线 处 理 器 中 〈 见 5.2 节 )。 

以 ARM 处理 器 为 例 ， 尽 管 有 对 立即 数 的 限制 ， 但 实际 上 很 多 常数 都 可 以 用 一 个 8 位 值 加 上 
移 位 来 编码 ， 所 以 这 并 没有 成 为 非常 严重 的 性 能 瓶颈 。ADSP2181 也 用 类 似 的 方式 处 理 立 即 数 负 
载 ， 并 已 经 设计 为 高 速 单 周期 操作 。 


3. 9. 3 ”压缩 指令 集 


尤其 是 在 变 长 指令 的 处 理 器 中 ， 堆 夫 受 编码 〈Huffman encoding) 用 于 提高 处 理 器 效率 。 事 
实 上 ， 稍 后 我 们 将 看 到 ， 类 似 的 想法 即使 在 一 个 定 长 的 处 理 器 中 也 可 以 使 用 ,但 这 时 效率 不 是 主 
要 原因 。 

霍 夫 曼 编码 的 基本 原理 是 减少 最 常用 指令 的 长 度 而 增加 最 不 常用 指令 的 长 度 ， 从 而 使 平均 
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指令 长 度 减 少 。 显 然 ， 这 需要 有 指令 发 生 概 率 的 知识 ， 然 后 让 表示 指令 的 编码 长 度 与 其 概率 成 反 
比 。 框 3.5 给 出 了 一 个 应 用 霍 夫 曼 编码 的 指令 集 设 计 实 例 。 

应 该 指出 ， 在 现实 世界 中 ， 相 比 于 平均 情况 ， 一 个 特定 的 应 用 可 能 会 出 现 非常 不 同 的 指令 概 
率 统计 。 
霍 夫 彼 编 码 简介 

例如 处 理 器 有 5 条 指令 ， 为 此 做 了 一 个 1000 条 指令 的 软件 程序 的 分 析 ， 得 到 各 指令 发 生 的 次 数 情 况 
PR 小， 
Le 60, ADD 300, SUB 80, AND 60, MOV 500 

在 该 指令 集中 如 果 对 各 种 指令 的 表示 采取 等 长 编码 ， 则 需要 3 位 (因为 那样 最 多 允许 7 种 可 能 )。 忽 
略 操作 数 ， 表 示 整 个 程序 需要 1000 x3 位 =3000 位 。 

处 理 器 设计 者 希望 采用 霍 夫 曼 编码 来 减少 程序 的 大 小 。 首 先 ， 计 算 每 条 指令 的 概率 (通过 用 每 条 指令 
的 发 生 次 数 除 以 总 次 数 ): 

CALL 0.06, ADD 0.3, SUB 0.08, AND 0.06, MOV 0.5 

接 下 来 ， 按 照 概 率 对 它们 排序 ， 将 概率 最 低 的 两 个 合并 得 到 重 排 的 序列 ， 分 别 如 下 : 























MOV 0. 5 MOV 0.5 
ADD 0.3 ADD 0. 3 
SUB 0. 08 C/A0.12 
CALL 0.06 SUB 0.08 
AND 0. 06 











重复 这 个 过 程 ， 直 到 只 留 下 两 个 选项 : 















































MOV 0.5 MOV 0.5 MOV 0.5 MOV 0.5 
ADD 0.3 ADD 0.3 ADD 0.3 一 C/A/S/A 0.5 
SUB 0. 08 C/A0.12 C/A/S 0.2 | 

CALL 0.06 SUB 0. 08 | 

AND 0.06 | 





接 下 来 ， 从 右 身 左 遍历 这 樟树 ， 对 每 一 列 最 下 面 的 两 项 进行 编号 ， 上 面 的 指定 为 二 进 制 “1”， 下面 的 
指定 为 二 进 制 “0”， 这 些 数字 必须 在 遍历 过 程 中 写 下 来 ， 其 他 的 列 项 只 需 简单 地 中 左边 一 样 即 可 ， 不 需要 
多 写 ， 直 到 到 达 左 手边 的 原始 指令 则 停止 。 

例如 最 右边 的 列 ,“1” 表 示 MOV,“0” 表 示 CALLAAND/SUB/ADD 中 的 任何 一 个 ; 向 左 ， 现 在 “01” 
表示 ADD， 而 “00” 是 CALL/AND/SUB 的 前 级; 下 一 列 ，“001” 表 示 CALL 或 AND, “000” 表 示 SUB。 
写 下 所 有 这 些 可 以 得 到 : MOV 是 “1”，ADD 是 “01”，SUB 是 “000”，CALL 是 “0011” 以 及 AND 是 
“0010”。 如 果 我 们 关注 每 种 操作 使 用 的 位 数 的话 ， 看 到 最 常用 的 指令 (MOV) 只 用 一 位 表示 ,而 最 不 常用 
的 指令 (AND) 需要 4 位， 因此 这 种 编码 方法 看 起 来 在 用 较 少 位 数 表示 最 常用 指令 方面 是 有 效 的 。 利 用 原 
始 的 每 种 操作 的 发 生 次 数 和 霍 夫 曼 指 令 位 数 ， 我 们 可 以 计算 新 的 程序 大 小 : 

(500 x 1) + (300 x2) + (80 x3) + (60 x4) + (60 x4) = 1820 
这 显然 大 大 小 于 固定 3 位 表示 法 所 用 的 3000 位 。 

多 数 ARM 处 理 器 包含 另 一 种 16 位 指令 集 ， 称 为 Thumb。 该 设计 是 为 了 提高 代码 密度 。 但 是 
请 注意 ， 即 使 给 定 内 存 的 大 小 可 以 支持 两 倍 的 Thumb 指令 ， 相 比 于 32 位 ARM 指令 ， 平均 来 讲 ， 
实现 和 译 码 后 所 映射 的 底层 ARM 指令 相同 的 功能 也 需要 更 多 的 Thumb 指令 (这 主要 是 因为 供 选 
择 的 不 同 Thumb 指令 较 少 )。 

ARM 工程 师 设 计 Thumb 指令 集 的 过 程 是 值得 注意 的 ， 因 为 他 们 使 用 了 类 似 于 霍 夫 曼 编码 的 
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想法 。ARM 工程 师 考 察 了 一 个 应 用 程序 代码 实例 的 数据 库 ， 并 计算 出 每 个 指令 的 使 用 次 数 ， 只 
有 最 常见 的 指令 才 会 出 现在 Thumb 模式 中 。 在 固定 的 16 位 指令 字 里 面 ， 用 于 表示 指令 的 二 进 制 
编码 是 基于 其 他 操作 数 所 需 位 数 的 长 度 编 码 。 

Thumb 指令 集 的 一 些 特 点 如 下 : 

。 只 有 一 个 条 件 指令 ( 偏 移 量 跳 转 ) ; 

。 没有 “S” 标 志 位 ， 多数 Thumb 指令 自动 更 新 条 件 标 志 ; 

。 目的 寄存 器 通常 和 源 寄 存 器 是 一 个 〈 在 ARM 模式 中 ， 目 的 和 源 通常 总 是 分 开 指定 的 ) ; 

。 所 有 的 指令 都 是 16 位 的 (但 寄存 器 和 内 部 总 线 宽度 还 是 32 位 ) ; 

。 立即 数 的 寻 址 方式 和 偏 移 地 址 非常 受 限 ; 

。 多 数 指令 只 能 访问 (16 位 寄存 器 中 的 ) 低 8 位 寄存 器 。 

Thumb 指令 集 的 复杂 程度 远 远 超 过 ARM 指令 集 ， 尽 管 其 译 码 过 程 ( 从 Thumb 指令 被 从 内 存 
中 取出 到 ARM 指令 准备 好 在 处 理 器 中 执行 ) 是 自动 完成 ， 并 且 速 度 很 快 。 下 面 是 指令 的 一 些 
例子 : 











16 位 二 进 制 指令 位 模式 | 指令 名 称 举例 














11100 偏 移 量 (11 位 ) 分 支 
目的 寄存 器 (4 位) 偏 移 量 (8 位 ) 读 内 存 中 的 数据 到 寄存 器 
101100001 立即 数 (7 位) 堆栈 加 法 


B main 








LDR R3, [PC, #10] 
ADD Sp, SP, #23 








| 
1101 条 件 (4 位 ) | 偏 移 量 (8 位 ) | 条 件 分 支 | BLT loop 
| 
| 
| 








从 这 里 给 出 的 有 限 的 例子 可 以 看 到 ， 少 数 的 几 个 最 高 位 表示 指令 ， 实 际 上 整个 指令 集 的 这 
个 长 度 范围 是 从 3 位 到 9 位 。 在 所 示 的 ADD 指令 中 ,在 其 上 操作 的 寄存 器 是 固定 的 : 只 能 和 堆 
栈 相 加 一 一 几乎 所 有 指令 均 可 在 任何 寄存 器 上 操作 这 种 ARM 指令 集 的 灵活 性 和 规律 性 丢失 
了 一 一 这 是 考虑 到 了 软件 中 最 常用 的 操作 。 

应 该 指出 一 点 ，Thumb 指令 集 是 16 位 宽 ， 当 到 外 部 存储 器 的 接口 是 16 位 时 它 才 真正 处 于 其 
最 佳 状 态 ， 在 这 种 情况 下 ， 每 个 ARM 指令 需要 两 个 内 存 周期 来 读 取 (导致 处 理 器 只 能 以 其 最 高 
速度 的 一 半 运 行 ) ， 而 Thumb 代码 可 以 全 速 执行 。 


3. 3. 4 寻 址 模式 


寻 址 模式 描述 了 确定 指令 中 操作 数 的 不 同方 法 。 有 许多 种 操作 指令 ， 它 们 可 能 不 含 操作 数 ， 
可 能 含 一 个 操作 数 ， 或 者 两 个 、 三 个 操作 数 。 特 殊 情 况 也 有 超过 三 个 操作 数 的 指令 。 多 数 现代 处 
理 器 中 常见 的 非 零 操 作 数 的 例子 如 下 : 











类 型 例子 操作 数 
单 操作 数 B address 地 址 可 能 是 直接 给 出 的 ， 可 能 是 一 个 距离 当前 位 置 的 偏 移 量 ， 
或 者 可 能 是 一 个 存储 在 寄存 器 /内 存 位 置 中 的 地 址 
两 操作 数 NOT destination ，Source 目的 或 源 操作 数 可 能 是 寄存 器 、 内 存 地 址 或 由 寄存 器 指定 的 内 


存 地 址 。 源 操作 数 还 可 能 是 一 个 立即 数 








三 操作 数 ADD destination , source, source 目的 或 源 操 作 数 可 能 是 寄存 器 、 内 存 地 址 或 由 寄存 器 指定 的 内 
存 地 址 。 源 操作 数 还 可 能 是 一 个 立即 数 


当然 ， 并 非 所 有 可 能 的 操作 数 类 型 都 适用 于 所 有 的 指令 ， 尽管 如 此 在 某 些 处 理 器 中 有 些 操 
作 数 还 不 能 使 用 (例如 RISC 处 理 器 的 load-store， 通 常 限制 算术 运算 指令 的 操作 数 是 寄存 器 ， 而 
在 CISC 处 理 器 中 它们 可 以 存储 在 内 存 中 或 其 他 地 方 ) 。 最 后 一 点 需要 注意 的 是 在 上 面 例子 中 的 
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后 两 个 , 假设 其 第 一 个 操作 数 是 目的 数 一 一 对 于 ARM 汇编 语言 即 如 此 ， 但 对 其 他 某 些 处 理 器 则 
相反 ( 见 3.2.7 节 )。 这 可 能 是 对 不 同 处 理 器 编写 汇编 代码 时 引起 混淆 的 真正 原因 (也 是 计算 机 
体系 结构 讲师 /作者 的 职业 风险 所 在 ) 。 

术语 寻 址 模式 (addressing mode) 指 加 载 或 存储 时 地 址 的 表示 方式 ， 使 用 一 种 或 几 种 不 同 的 
技术 。 下 表 列 出 了 常用 的 寻 址 模式 ， 以 ARM 风格 的 汇编 语言 为 例 (虽然 应 该 指出 PUSH 不 存在 
于 ARM 指令 集中 ， 只 在 Thumb 中 才 有 )。 


























名 称 举例 解释 含义 
立即 数 寻 址 MOV RO, #0x1000 传送 十 六 进 制 值 0x1000 到 寄存 器 RO 
绝对 寻 址 LDR RO, #0x20 加 载 内 存 地 址 为 0x20 处 的 内 容 到 RO 
寄存 器 直接 寻 址 NOT RO, R1 将 Rl 中 的 内 容 到 反 并 存储 到 RO 中 
寄存 器 间接 寻 址 LDR RO, [R1] 如 果 R1 中 有 值 0x123， 那 么 取出 内 存 中 0x123 位 置 的 内 容 并 放 人 RO 
堆栈 寻 址 PUSH RO 在 这 种 情况 下 ，R0 中 的 内 容 被 人 栈 (假设 只 有 一 个 堆栈 ) 


如 下 扩展 和 组 合 的 基本 思路 也 很 常见 : 























名 称 举例 在 Rl=1 & R2=2 时 
寄存 器 相对 间接 寻 址 LDR RO,，[R1l, 指 ] 第 二 个 操作 数 的 内 存 地 址 为 1+5 =6 
基 址 加 变 址 寄存 器 间接 寻 址 STR RO, [R1, R2] 第 二 个 操作 数 的 内 存 地 址 为 1 +2 =3 
相对 基 址 加 变 址 寄存 器 间接 针 址 ”LDR RO, [R1，R2, 向 ] 第 二 个 操作 数 的 内 存 地 址 为 1 +2+3 =6 


各 种 处 理 器 ， 包 括 ARM 和 ADSP2181 ， 还 提供 一 种 自动 方式 以 便 在 寄存 器 被 用 做 偏 移 地 址 后 
对 它们 进行 更 新 。 例 如 ， 用 立即 数 偏 移 的 寄存 器 间接 访问 ， 在 偏 移 量 加 完 之 后 会 更 新 这 个 寄存 


器 。 如 下 面 例子 所 示 ， 其 中 Rl = 22: 
LDR R0， [R1]，#5 ， 将 内 存 地 址 22 处 的 内 容 加 载 到 R0 中 ， 然后 设置 R1=22+5=27 
LDR RO，[R1，#5]! 设置 R1=22+5=27， 然 后 把 内 存 地 址 27 处 的 内 容 加 载 到 RO 中 


注意 ， 我 们 并 不 想 在 这 里 教 大 家 ARM 指令 集 的 细节 ， 只 是 以 此 作为 底层 寻 址 技术 的 辅助 
教学 。 
分 析 这 些 局 限 性 使 得 CPU 的 设计 者 必须 在 处 理 器 中 提供 某 些 层次 的 功能 一 一 除了 关注 指令 
集 之 外 ， 没 什么 更 能 揭示 这 些 限 制 ， 在 这 方面 CISC 处 理 器 更 有 意思 。 下 面 给 出 了 一 些 例子 ,， 假 
设 有 一 个 CISC 处 理 器 ， 主 存 地 址 mA、mB 和 mC 用 于 绝对 操作 数 存储 ， 还 有 一 个 RISC 处 理 器 ， 
其 中 寄存 器 RO、R1 和 R2 用 于 寄存 器 直接 寻 址 : 
e CISC 处 理 器 : ADD mA, mB, mC ; mA=mB+mC 
这 里 ,一旦 CPU 读 取 了 指令 并 进行 译 码 ， 它 必须 进一步 读 取 存储 了 操作 数值 mB 和 
mC 的 两 个 内 存 地 址 的 数据 ， 这 可 能 需要 两 个 内 存 总 线 周 期 。 然 后 这 些 值 被 内 部 总 线 传 
送 到 ALU (由 于 是 顺序 进行 的 ， 因 此 只 需要 一 组 总 线 )。 一 旦 ALU 计算 出 结果 ， 则 结果 
通过 总 线 传送 到 内 存 接口 ， 以 写 回 到 主 存 中 mA 的 位 置 。 
该 指令 的 开销 除了 ALU 的 运算 时 间 之 外 ， 还 有 三 个 外 部 存储 周期 。 外 部 存储 周期 通 
常 远 远 慢 于 内 部 ALU 操作 ， 所 以 这 显然 是 一 个 瓶颈 。 这 只 需要 在 处 理 器 中 有 一 个 内 部 总 
线 即 可 解决 。 
指令 字 中 必须 包含 三 个 绝对 地 址 。 对 32 位 内 存 ， 等 于 96 位 ， 构 成 一 个 很 长 的 指令 





白 “建议 那些 想 要 了 解 ARM 指令 集 的 读者 参考 《ARM System Architecture》 这 本 书 ， 作 者 是 Steve Furber ( ARM 处 理 
器 的 发 明 者 之 一 ) 。 
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字 。 这 可 以 通过 偏 移 量 或 相对 地 址 来 缩减 位 数 ， 但 对 32 位 来 说 可 能 仍然 太 长 了 。 
。 RISC 处 理 器 : ADD RO，R1，R2 -， RO =Rl+R2 
同样 的 操作 现在 用 寄存 器 来 完成 。 所 有 操作 数 的 值 都 已 经 在 CPU 内 部 ， 这 意味 着 可 
以 快速 地 访问 它们 。 一 旦 指令 被 读 取 并 译 码 ， 寄 存 器 R1 将 驱动 一 个 内 部 操作 数 总 线 ， 
同时 寄存 器 R2 驱动 男 一 个 内 部 操作 数 总 线 。 因 此 在 一 个 很 快 的 内 部 总 线 周 期 ， 两 个 操 
作 数 被 送 到 ALU。 一 旦 ALU 计算 完结 果 ， 一 个 内 部 结果 总 线 将 获得 该 值 。R0 将 会 监听 
这 个 总 线 ， 在 适当 的 时 候 ， 从 该 总 线 上 锁 存 结果 值 。 
指令 的 开销 除了 ALU 的 运算 时 间 外 ， 还 有 两 个 快速 内 部 总 线 周期 。 在 我 们 讲述 的 例 
子 中 ，CPU 必须 包含 三 个 内 部 总 线 : 两 个 同时 传送 两 个 操作 数 ， 一 个 收集 结果 。 其 他 类 





似 的 安排 也 是 有 可 能 的 。 











指令 字 需 要 包含 三 个 寄存 器 值 ， 然 而 ， 对 一 个 有 32 个 寄存 器 的 寄存 器 组 来 说 ， 只 需要 
5 位 即 可 指定 每 个 寄存 器 ， 因 此 总 共 需 要 15 位 。 这 很 容易 将 操作 编码 在 32 位 宽 的 指令 中 。 
e CISC 处 理 器 : ADD ma，mB ; mA=mA+mB 
类 似 于 第 一 个 例子 ，CPU 必须 读 取 存储 了 操作 数值 的 两 个 外 部 存储 位 置 ， 需 要 两 个 
内 存 总 线 周 期 。 也 需要 将 结果 传送 回 内 存 ， 因 此 执行 时 间 没 有 变 。 
但 是 ， 这 次 指令 字 只 需要 包含 两 个 绝对 地 址 而 不 是 三 个 。 这 在 实际 系统 中 是 可 行 的 ， 
尤其 是 如 果 第 一 个 操作 数 用 绝对 地 址 而 第 二 个 用 偏 移 量 的 话 。 
e CISC 处 理 器 : ADD mB ; ACC=mB+ACC 
20 世纪 80 年 代 及 更 早 的 CISC 处 理 器 通常 是 利用 累加 器 。 这 些 是 通用 寄存 器 (寄存 
器 组 的 前 身 ) 被 用 来 作为 所 有 算术 运算 和 数据 模式 操作 的 操作 数 ， 并 保存 这 些 操作 的 结 
果 。 另 一 个 操作 数 几 乎 总 是 内 存 中 的 一 个 绝对 值 。 本 例 中 ， 指 令 需 要 在 加 法 之 前 从 内 存 
加 载 一 个 值 ， 因 此 涉及 一 个 外 部 存储 总 线 周 期 。 
指令 字 只 需要 包含 一 个 内 存 绝对 地 址 ， 这 可 以 通过 加 载 一 个 包含 该 地 址 的 第 二 个 指 
令 字 来 实现 (因此 在 指令 执行 前 需要 先 读 取 两 条 指令 )。 
。 堆栈 处 理 器 : ADD 
这 是 一 个 特殊 情况 〈 将 会 在 下 一 节 尤 其 是 第 8 章 进 一 步 讨论 ) ，CPU 弹出 栈 顶 两 个 
数 ， 相 加 后 再 将 结果 人 栈 。 这 需要 访问 栈 ， 如 果 栈 是 一 个 内 部 存储 块 ， 访 问 会 很 快 ， 但 
栈 更 多 的 是 位 于 片 外 存储 上 。 使 用 堆栈 方法 的 主要 好 处 是 指令 不 再 需要 编码 任何 内 存 地 
址 。 从 理论 上 说 ， 这 可 以 得 到 一 个 非常 小 的 指令 宽度 。 


3. 3.5 堆栈 机 和 逆 波 兰 表 示 法 
人 们 通常 采用 中 组 表示 法 表示 一 个 写 在 纸 上 的 运算 (如 a+5+c)， 其 中 公认 的 运算 符 优先 级 ? 





(可 以 通过 使 用 插 号 改变 ) 决定 了 各 种 运算 执行 的 顺序 。 波 兰 表示 法 (注意 不 是 逆 波 兰 表 示 法 ) 是 











由 波兰 数学 家 Jan Lukasiewicz 在 20 世纪 20 年 代 发 明 的 ， 将 运算 符 放 在 操作 数 的 前 面 ， 因 此 是 一 个 
前 组 表示 法 。 通 过 这 种 方式 指定 操作 数 ， 运 算 符 优先 级 则 不 重要 了 ， 因 此 不 再 需要 括号 。 

相反 ， 逆 波兰 表示 法 〈RPN) 是 一 个 后 组 表示 法 ， 等 式 的 顺序 即 完全 定义 了 优先 级 。 这 是 
在 20 世纪 50 ~ 60 年 代 ， 为 辅助 基于 堆栈 体系 结构 的 工作 而 创造 的 。 它 后 来 被 两 代 HP 电子 计算 
器 用 户 所 引进 并 迷恋 〈 或 讨厌 ) 。 








加 ”许多 读者 可 能 还 记得 ， 在 小 学 学 算术 时 ， 为 了 辅助 记忆 优先 级 所 学 的 BODMAS 缩写 。BODMAS 代表 : 括号 
(Braclcet) 、 级 数 (Order， 即 寡 和 平方 根 ) 、 除 法 (Division) 、 乘 法 ( Multiplication) 、 加 法 (Addition) 和 减法 
( Subtraction ) 。 见 http: /www. malton. n- yorks. sch. uk/ MathsWeb/reference/ bodmas. html 。 
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RPN 的 一 个 例子 如 bc +a+ ， 其 中 操作 数 b 和 < 先 给 出 ， 且 随后 是 相 除 的 命令 并 保存 结果 。 
然后 操作 数 a 被 加 载 ， 并 跟随 一 个 加 法 命令 ， 把 前 面 的 结果 加 到 a 上， 并 将 新 的 结果 存储 在 某 个 
地 方 。 以 下 是 更 多 的 例子 并 且 如 图 3-12 所 示 。 


中 缀 后 缀 
axb abx 











是 一 个 存储 设备 ， 有 单一 的 入口/ 出 口 。 数 字 可 以 
被 推 和 到 堆栈 的 “ 顶 ”部 ， 再 从 “ 顶 ”部 弹出 去 。 
这 是 一 种 后 进 先 出 (LIFO) 结构 。 

图 3-12 显示 了 -一个 用 堆栈 运行 ob + 的 例子 ， 

名 右 读 。 需 要 注意 的 事情 有 ， 每 个 步骤 只 1 
ee on le ee, 
要 一 个 周期 ) ， 尽 管 弹出 的 数字 个 数 由 该 操作 所 需 。“ ” ” 序 X 栈 呈报 椒 项 出 术 AL 执行 返 
的 操作 数 个 数 决定 。 例 如 ，ADD 需要 两 个 操作 数 ， 算 ， 计 算 两 修 数 的 和 并 将 结果 人 楼 
因此 通过 两 次 POP 操作 将 操作 数 加 载 到 ALU。 每 个 运算 操作 的 结果 被 推 回 本 项。 

考虑 用 这 样 一 个 堆栈 机 去 执行 一 个 复杂 程序 任务 会 很 有 趣 。 对 简单 操作 看 起 来 似乎 有 效 ， 
但 有 时 ， 推 栈 经 过 一 系列 操作 后 的 最 终 状态 可 能 是 在 栈 顶 没有 得 到 正确 的 结果 。 这 可 能 是 由 多 
任务 或 中 断 服务 例 程 引起 的 。 必 须 有 一个 堆栈 重 新 排序 的 方式 ， 如 将 数据 项 弹出 栈 并 存储 到 主 
存 ， 再 以 不 同 的 顺序 将 它们 推 人 栈 。 这 可 能 是 一 个 非常 耗 时 的 过 程 ， 会 严重 影响 堆栈 机 的 整体 性 
能 。 这 一 过 程 也 在 框 3.6 中 进行 了 讨论 ， 重 新 排序 以 尽量 缩减 堆栈 的 使 用 。 
重 编码 RPN 指令 以 缩减 堆栈 空间 

考虑 中 缀 表达 式 a + (b xc)， 由 于 加 法 顺序 对 最 终结 果 并 不 重要 ， 因 此 该 表达 式 也 可 以 写成 (b xc) +a。 

对 每 个 表达 式 ， 写 下 其 后 缀 表达 式 ， 并 写 出 执行 需要 的 堆栈 操作 顺序 。 考 虑 每 个 表达 式 的 堆栈 使 用 情况 。 

应 当 明确 ， 表 达 式 的 一 种 写法 使 用 的 最 大 堆栈 深度 是 3 层 位 置 ， 而 另 一 种 写法 使 用 的 堆栈 深度 只 有 2 
层 位 置 。 

看 来 ， 后缀 表达 式 的 顺序 可 以 显著 影响 所 禹 的 堆栈 资源 (因此 也 是 硬件 资源 )， 尽 管 这 并 不 会 改变 整 
个 计算 所 需 的 步骤 数 。 

并 非 所 有 的 中 缀 表达 式 都 对 顺序 不 敏感 ， 加 法 和 乘法 可 以 ， 但 除法 和 减法 是 绝对 不 行 的 。 


3. 4 数据 处 理 


到 目前 为 止 ， 本 章 一 直 在 讨论 CPU 基础 一 一 什么 是 计算 机 和 计算 机 的 组 成 。 我 们 已 经 提 到 
了 指令 和 程序 等 。 作 为 其 中 的 一 部 分 ，3. 3 节 讲 述 的 是 指令 处 理 ， 包 括 一 些 变量 ， 以 及 寻 址 方式 
等 重要 子 课题 。 

后 面 的 3.5 节 将 从 自 顶 向 下 的 角度 去 看 计算 机 。 然 而 ， 在 高 层次 总 览 和 低层 次 细节 这 两 个 极端 
之 间 ， 有 一 个 哲学 问题 ， 那 就 是 计算 机 的 目的 是 什么 。 我 们 可 以 借用 “黑匣子 ” (black box) ”来 举 
例 ， 从 黑匣子 的 角度 ， 我 们 把 计算 机 看 做 是 一 个 这 样 的 东西 : 它 修改 一 些 输入 数据 ， 产 生 一 些 输出 
数据 。 

输入 数据 和 输出 数据 都 有 很 多 种 形式 : 指令 、 知 识 、 传 感 器 采集 的 数据 、 多 媒体 等 。 对 于 某 
些 系 统 ， 输 入 数据 可 能 是 由 某 个 单一 触发 事件 组 成 ， 输 出 数据 可 能 是 由 一 些 驱 动 器 开关 执行 信 






从 栈 顶 弹出 两 人 
值 并 相 加 











加 ”对 于 那些 从 来 没 见 过 这 个 词 的 人 来 说 ,“ 黑 匣子 ”通常 用 于 描述 一 个 功能 模块 ， 它 只 根据 该 模块 的 输入 和 输出 给 
出 定义 。 它 不 关心 模块 内 部 是 怎样 的 ， 只 要 给 定 正确 的 输入 就 能 够 产生 正确 的 输出 。 


第 3 章 CPU 基础 


号 组 成 。 在 控制 系统 中 就 是 这 样 的 ， 它 通常 是 因为 实时 处 理 数据 (实时 间 题 将 在 6.4 节 深 入 讨 
论 ) 的 需求 而 执行 的 。 某 些 系统 是 数据 密集 型 的 一 一 输入 或 者 输出 由 稠密 的 数据 流 组 成 ， 比 如 
数字 音频 或 者 视频 ， 这 些 系统 也 需要 实时 处 理 。 然 而 ， 大 部 分 的 计算 机 系统 都 是 通用 机 器 ， 它 既 
能 够 执行 控制 也 能 够 执行 数据 处 理 任务 ， 很 少 涉及 实时 问题。 

这 里 我 们 讨论 的 主题 是 数据 : 计算 机 处 理 数据 ， 无 论 它 是 一 个 一 位 触发 器 ， 有 非常 严格 的 时 
序 要 求 ， 还 是 1TB 的 多 媒体 数据 ， 只 需要 几 分钟 的 时 间 来 完成 数据 处 理 。 本 节 将 讲述 计算 机 的 
这 些 重要 内 容 : 什么 是 数据 ? 如 何 产生 、 存 储 和 处 理 数据 ? 


3. 4.1 数据 的 格式 和 表达 


在 2.3 节 我 们 已 经 讨论 了 一 般 的 数字 格式 ， 包 括 和 计算 机 最 相关 的 〈 无 符号 二 进 制 数 、 补 码 
等 )。 无 论 使 用 的 是 哪 种 格式 ， 数 的 宽度 一 一 由 一 个 数 占 用 的 位 数 一 一 能 够 由 计算 机 体系 结构 设 
计 人 员 进 行 调整 ， 或 者 增加 所 能 存储 数据 的 最 大 绝对 值 ， 或 者 增加 其 精度 。 通 常情 况 下 ， 因 为 计 
算 机 是 基于 字 节 的 ， 所 以 数 的 位 宽 是 8 的 倍数 。 

大 多 数 CPU 有 一 个 默认 大 小 的 数据 格式 ， 这 是 由 内 部 总 线 的 宽度 决定 的 ， 例 如 ， 在 老 的 
6502 处 理 器 上 是 字 节 宽 ,在 ARM 上 是 32 位 宽 。 尽 管 ARM 也 可 以 处 理 字 节 和 16 位 的 半 字 ,但 它 
以 32 位 的 方式 访问 主 存 ， 因 此 处 理 32 位 的 值 并 不 比 处 理 字 节 慢 。 在 ARM 中 ,寄存器 、 内 存单 
元 、 大 多 数 操作 数 等 都 是 32 位 宽 。 

程序 员 通 常 采 用 像 C 这 样 的 高 级 语言 来 处 理 内 存 或 寄存 器 中 的 数据 。 尽 管 某 些 编程 语言 ) 
格 按照 该 语言 所 提供 的 数据 类 型 来 定义 数据 格式 ， 但 在 C 语言 中 并 非 如 此 ， 只 是 定义 一 个 字 节 
时 总 是 指 8 位 宽 。 

通常 情况 下 ， 虽然 实际 上 是 由 所 使 用 的 特定 C 编译 器 决定 ， 但 与 整 型 数据 类 型 相 匹配 的 是 
处 理 器 的 默认 位 宽 ， 即 16 位 宽 或 以 上 。 因 此 , 在 16 位 机 器 上 的 整 型 数 通常 会 是 一 个 16 位 数 ， 
而 在 64 位 机 器 上 往往 是 64 位 宽 。 

程序 员 应 注意 : 如 果 你 想 编写 可 移植 代码 ， 请 确定 没有 对 整 型 、 短 整 型 数 等 的 确切 大 小 做 出 
任何 假设 。 表 3-1 给 出 了 gce 编译 器 针对 不 同 的 目标 处 理 器 时 几 种 数据 类 型 的 宽度 ” 。 一 些 原始 
的 C 语 言 数据 类 型 其 性 质 的 不 断 变化 ， 导 致 许多 开发 人 员 采 用 特定 长 度 的 数据 类 型 ， 这 在 框 3.7 
中 给 出 了 进一步 说 明 。 

表 3-1 从 8 位 CPU 到 64 位 CPU， 比 较 其 上 的 C 编程 语言 数据 类 型 的 数据 宽度 。 注 意 
不 同 处 理 器 之 间 哪 些 数据 类 型 的 大 小 发 生变 化 ， 而 其 他 保持 不 变 。 对 于 一 个 特定 
的 实现 ， 数 据 宽度 通常 通过 在 配置 头 文件 types. h 中 定义 最 大 和 最 小 的 具有 代表 性 
的 数 来 实现 。 还 要 注意 ， 其 字 节 顺序 在 大 小 尾 端 处 理 器 上 也 会 不 同 ( 见 2.2 节 ) 














C 语言 数据 类 型 8 位 CPU 16 位 CPU 32 位 CPU 64 位 CPU 

char 8 8 8 8 
byte 8 8 8 8 
short 16 16 16 16 
int 16 16 32 64 
long int 32 32 32 64 
long long int 64 64 64 64 
float 32 32 32 32 
double 64 64 64 64 
long double 由 具体 编译 器 决定 一 一 可 能 是 128、96、80 或 64 位 宽 





日” 注意 某 些 编译 器 的 实现 会 有 所 不 同 ， 可 能 不 符合 ISO 或 ANSI C 语言 规范 。 
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当然 ， 有 经 验 的 程序 员 会 知道 ，C 编程 语言 中 的 任何 整数 数据 类 型 ( 即 表 中 前 6 行 ) 可 以 被 
指定 为 有 符号 或 无 符号 。 默 认 〈 如 果 没 有 指定 ) 的 数据 类 型 是 有 符号 补 码 。 

long int 和 long long int 也 可 分 别 被 定义 为 long 和 long long。 除 了 最 大 的 机 器 外 ， 在 所 有 机 器 
中 ， 这 两 种 类 型 都 需要 多 个 内 存 位 置 进行 存储 。 

char 类 型 通常 使 用 7 位 的 有 效 值 ， 遵 守 ASCII 标准 (美国 标准 信息 交换 代码 ) ， 如 表 3-2 所 
示 。 任 何 一 个 最 高 位 被 置 位 的 字符 〈 即 一 个 第 8 位 非 零 的 字符 ) 将 被 看 做 是 一 个 扩展 的 ASCII 字 
符 〈 未 在 表 中 列 出 的 ASCII 字符 ) 。 有 趣 的 是 ， 低 于 十 进 制 数 32 (space) 的 字符 和 包括 十 进 制 数 
127 (delete) 的 字符 是 非 打 印字 符 ， 具 有 最 初 为 电 传 终端 所 定义 的 特殊 值 。 例 如 ，ASCII 字符 8 
即 “\b” 是 响 铃 字符 ， 输 出 时 将 导致 一 个 “ 哗 ” 声 。 简 单 在 网 上 搜索 一 下 ， 可 以 很 容易 地 找到 
其 他 特殊 的 ASCII 字符 的 含义 。 

当 使 用 计算 机 的 人 是 以 英语 为 母语 时 ，ASCII 码 是 非常 出 色 的 ， 但 对 于 使 用 其 他 语言 的 人 则 
不 是 特别 有 用 。 因 此 ， 人 们 多 年 来 一 直 付 出 巨大 的 努力 希望 可 以 为 其 他 语言 定义 不 同 的 字符 编 
码 。 也 许 最 终极 的 挑战 是 汉语 ， 它 拥有 近 13 000 个 象形 字 (独立 符号 ) : 很 明显 用 一 个 8 位 的 数 
据 类 型 是 不 可 能 把 汉语 言 文字 编码 的 。 在 过 去 的 二 十 年 已 经 出 现 过 许多 解决 方案 ， 其 中 大 部 分 
使 用 两 个 或 两 个 以 上 的 连续 字 节 来 保存 单个 字符 ， 目 前 成 为 事实 标准 的 编码 称 为 Unicode ， 这 种 
方式 采用 完全 不 同 的 风格 ， 但 它 可 以 使 用 最 多 四 个 连续 字 节 对 绝 大 多 数 的 字符 编码 ， 其 中 包括 
汉语 、 日 语 、 韩 语 等 。 
由 入 式 系统 的 数据 类 型 

虽然 用 C 或 C++ 语言 编写 的 程序 通常 使 用 如 表 3-1 所 示 的 标准 数据 类 型 ， 但 当 移 植 代码 时 还 是 可 能 会 
造成 混乱 。 如 果 程 序 员 对 一 个 特定 数据 类 型 的 大 小 做 了 一 个 隐 含 的 假设 ， 那 么 在 另外 的 处 理 器 上 编译 时 ， 
这 种 假设 可 能 不 再 正确 。 

在 gce 编译 器 被 广泛 采用 之 前 ， 这 种 情况 实际 上 更 糟 








许多 编译 器 有 自己 的 编译 模式 ， 比 如 “大 内 


存 模式 ”和 “小 内 存 模式 ”， 这 可 能 会 导致 表示 变量 的 位 宽 不 同 (虽然 gce 已 可 以 通过 命令 开关 来 改变 这 
一 点 ， 但 不 经 常 使 用 ) 。 在 嵌入 式 系统 中 ， 其 目标 机 器 可 能 不 同 于 主 汇编 机 ， 因 此 交叉 编译 格外 重要 ， 以 
确保 在 主机 上 测试 过 的 所 有 代码 也 能 够 在 目标 机 器 上 执行 。 

为 了 实现 这 样 的 目标 ， 并 保持 对 不 同 数据 类 型 的 限制 ， 也 许 最 简单 的 方式 是 在 声明 变量 时 直接 指定 每 
个 类 型 的 大 小 。 在 C99 编程 语言 (发 布 于 1999 年 的 C 正式 版 ) 中 ,这些 已 在 <stdint.h > 头 文件 中 为 我 们 
定义 好 了 。 














64 位 的 定义 (以 及 其 他 不 常见 的 位 宽 ， 如 24 位 ) 可 能 存在 于 某 个 特定 的 处 理 器 实现 。 当 然 ， 如 果 它 
存在 ， 就 会 占用 给 定 的 位 宽 ， 但 除 此 之 外 这 些 都 是 可 选 的 ， 所 以 对 于 一 些 机 器 ， 编 译 器 将 只 支持 主流 的 8 
位 、16 位 和 32 位 的 定义 。 比 起 那些 写 台 式 机 软件 的 编程 员 ， 岩 入 式 系统 的 编码 人 员 往 往 更 经 常 遇 到 这 些 
较 安 全 的 类 型 声明 。 笔 者 鼓励 嵌入 式 系统 的 开发 人 员 如 有 可 能 尽量 使 用 指定 宽度 的 数据 类 型 。 


表 3-2 美国 标准 信息 交换 码 , 7 位 ASCII 表 ， 表 中 列 出 了 字符 (或 非 
打印 字符 的 名 称 / 标 识 符 ) 以 及 十 进 制 和 十 六 进 制 代码 表示 














Char Dec Hex Char Dec Hex Char Dec Hex Char Dec Hex 
\0 0 0x00 | (spe) 32 0x20 | e@ 64 0x40 | 96 0x60 
(soh) 1 ool | 33 0x21 || A 65 odl | a 97 0x6! 
(stx) 2 0x02 | 34 0x22 ||B 66 0x42 lip 98 0x62 
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Char Dec Hex Char Dec Hex 



































































































































| < 67 0x43 ce 99 0x63 

| p 68 0x44 d 100 0x64 

| & 69 0x45 e 101 0x65 

F 70 0x46 f 102 0x66 

G 71 0x47 g 103 0x67 

H 72 0x48 h 104 0x68 

I 73 0x49 i 105 0x69 

J 74 0x4a j 106 0x6a 

K 75 Ox4b k 107 0x6b 

L 76 Ox4c l 108 Ox6c 

M 77 Ox4d m 109 0x6q 

N 78 0x4e n 110 0x6e 

0 79 Oxdf o 111 Ox6f 

P 80 0x50 p 112 0x70 

(del) 17 oOxll 1 49 0x31 0 81 0:51 gq 113 0x71 
(dc2) 18 0x12 2 50 0x32 R 82 0x52 r 114 -0x72 
(de3) 19 0x13 3 51 0x33 S 83 0x53 s 115 0x73 
(de4) 20 Ox14 4 52 0x34 T 84 0x54 t 116 0x74 
(nak) 21 Ox15 5 53 0x35 U 85 ua 117 Ox75 
(syn) 22 Ox16 6 54 0x36 VY 86 Y 118 0x76 
(eth) 23 0x17 7 55 0237 | 页 87 w 119 -0x77 
(can) 24 0x18 8 56 0x38 || xX 8& x 120 0x78 
(em) 25 Ox19 9 57 0x39 Y 89 y 121 0x79 
(sub) 26 Oxla : 58 Ox3a z 90 z 122 0x7a 
(esc) 27 Oxlb ; 59 0x3b [ 91 | 123 0x7b 
(fs) 28 Oxle < 60 0x3e \ 92 | 124 Ox7e 
(gs) 29 oad | = 61 0x3d | ] 93 | 125 0x7d 
(rs) 30 Oxle “ 94 一 126 Ox7e 
(us) 31 Ox1f - 95 Ox5f Cdl) 127 ~ Ox7f 








虽然 这 种 编码 系统 的 细节 已 经 超出 了 本 书 的 范围 ， 但 其 影响 还 是 要 提 一 下 : 早期 的 计算 机 
是 字 节 宽 的 ， 自 然 能 够 处 理 字 节 大 小 的 ASCIH 字符 。 现 在 ， 它 需要 一 个 32 位 的 机 器 ， 在 一 个 单 
一 的 操作 中 处 理 4 字 节 的 Unicode 字符 。 同 样 ， 早 期 的 接口 也 是 基于 字 节 的 ， 如 PC 的 并 行 端口 
和 串 行 端 口 〈 见 第 6 章 ) 。 内 存 访问 也 常常 是 基于 字 节 的 。 有 观点 说 ， 对 于 简单 计数 和 文本 处 理 
来 说 ， 字 节 是 一 个 便于 处 理 的 宽度 。 然 而 ， 这 种 说 法 在 许多 情况 下 不 再 适用 。 对 非 英 文字 母 的 系 
统 而 言 ， 一 个 字 节 宽 的 处 理 系统 只 是 一 个 历史 而 已 。 

有 关 数 据 的 大 小 ， 最 后 一 点 需要 注意 的 是 float 和 double 类 型 的 一 致 性 。 这 种 一 致 性 得 益 于 
IEEE754 标准 的 普及 ， 以 及 事实 上 大 多 数 的 硬件 浮 点 单元 都 符合 标准 〈 这 一 点 将 在 4. 6 市 解释 )。 


3.4.2 数据 流 


仍然 采用 黑匣子 的 观点 ， 一 台 计 算 机 需要 输入 、 处 理 ， 并 产生 输出 。 显 然 ， 对 这 些 数据 在 实 
时 性 、 数 量 、 质 量 等 方面 的 要 求 非 常 重要 。 


65 
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今天 的 计算 机 ， 尤 其 是 许多 消费 类 柑 入 式 电子 系统 ， 大 量 是 以 用 户 为 中 心 。 这 意味 着 ,输入 
或 者 输出 需要 与 人 交互 。 某 些 数 据 也 相当 庞大 (如 视频 、 音 频 等 ) 。 总 线 宽度 需要 按照 数据 的 流 
量 来 确定 ， 并 且 系 统 也 应 考虑 人 的 需求 ， 其 中 总 线 我 们 会 在 第 6. 1 节 更 充分 地 讨论 。 例 如 ， 人 类 
的 感觉 器 官 往往 对 突然 的 中 断 比 连 续 的 错误 (噪声 ) 更 为 敏感 。 通 常情 况 下 ， 当 听 者 从 CD 播放 
机 听 音 乐 时 ， 漏 音 比 听 有 嘲 杂 背景 的 声音 更 加 让 人 恼火 。 视 频 也 一 样 : 跳 帧 比 看 稍微 有 噪声 的 画 
面 更 恼人 。 

大 多 数 重要 的 实时 问题 将 在 第 6. 4 节 探讨 。 然 而 ,在 这 一 点 上 ， 我 们 需要 强调 的 是 ， 计 算 机 
体系 结构 的 设计 者 应 牢记 ， 他 们 设计 的 系统 将 会 用 在 什么 地 方 。 嵌 人 式 计 算 机 体系 结构 设计 者 
可 能 具有 的 优势 是 ， 他 们 的 系统 更 灵活 、 更 通用 ， 因 而 能 更 好 地 以 满足 用 户 。 不 幸 的 是 ， 他 们 也 
有 许多 不 利之 处 ， 诸 如 对 系统 规模 、 成 本 和 功 耗 的 限制 更 严格 ， 因 此 需要 更 精细 的 权衡 取舍 
设计 。 

从 技术 上 讲 ， 计 算 机 中 数据 流 途 径 的 通路 称 为 总 线 。 这 个 数据 可 能 来 自 外 部 设备 或 某 种 形 
式 的 数据 存储 ， 在 CPU 或 协 处 理 器 上 以 某 种 方式 得 到 处 理 ， 然 后 同样 输出 到 另 一 个 外 部 设备 或 
数据 存储 。 


3.4. 3 数据 存储 


存储 层次 结构 图 3-1 突出 显示 了 在 存储 架构 方面 做 人 式 系统 和 典型 的 台式 机 /服务 器 系统 之 
间 的 差异 : 除了 一 些 类 似 iPod 的 设备 以 外 ， 在 嵌 人 式 系 统 中 的 数据 存储 通常 是 基于 闪存 的 。 而 
在 台式 系统 中 ， 它 往往 是 存储 在 硬盘 《用 于 短期 存储 ) 上 ， 或 磁带 /CDROM 或 DVD (用 于 备份 
存储 ) 上 面 。 

计算 机 “内 ”的 数据 是 存储 在 RAM、 高 速 缓存 存储 器 、 寄 存 器 等 设备 内 部 的 。 从 程序 员 的 
角度 来 看 ， 它 是 存储 在 寄存 器 或 者 主 存 (因为 高 速 缓存 通常 对 程序 员 是 不 可 见 的 ) 上 。 数 据 从 
外 部 设备 或 者 硬盘 通过 总 线 ( 见 6.1 节 ) 进入 内 存 ， 这 些 数据 传输 或 者 按 字 节 或 字 单 次 传送 ， 
或 者 按照 突 发 模式 ,或 者 采用 直接 内 存 访问 方式 (有关 DMA 的 内 容 见 6.1.2 节 )。 大 量 数据 占 
据 在 内 存 页 中 ， 由 内 存 管理 单元 ( 见 4.3 节 ) 处 理 ， 少 量 可 能 存在 于 固定 变量 区 或 系统 堆栈 中 。 
由 于 骨 入 式 系 统 通常 使 用 并 行 总 线 连接 闪存 设备 ， 因 此 这 种 系统 中 的 数据 已 经 可 以 被 主 处 理 器 
直接 访问 ， 从 而 将 这 些 数据 看 做 已 经 在 计算 机 “内 部 ”。 

数据 从 内 存 调 人 CPU 进行 处 理 ， 同 样 可 能 按 单 次 模式 传输 或 整 块 传输 。 对 于 load- store 机 器 
( 见 3.2.3 节 )， 待 处 理 的 数据 必须 首先 被 加 载 到 各 个 寄存 器 ， 因 为 所 有 的 处 理 操作 只 从 寄存 器 
获取 输入 数据 ， 且 只 输出 到 寄存 器 。 有 些 专用 机 器 〈 如 向 量 处 理 器 ) 可 以 直接 处 理 数据 块 ， 有 
些 机 器 有 专门 的 协 处 理 单元 ， 可 以 直接 访问 内 存 ， 而 不 需要 CPU 来 处 理 内 存 数据 的 加 载 和 存储 。 


3. 4.4 内 部 数据 


编译 C 代码 时 ， 编 译 器 决定 如 何 处 理 程序 变量 。 有 些 变量 ， 通 常 是 最 经 常 访问 的 变量 ， 妆 
它们 正在 被 访问 的 时 候 是 放 在 寄存 器 中 的 。 然 而 ， 大 多 数 处 理 器 没有 足够 多 的 寄存 器 ， 所 以 只 有 
极 少 的 变量 会 有 这 种 待遇 。 

在 整个 程序 执行 过 程 中 ， 会 为 全 局 变量 指定 一 个 专门 的 内 存 地 址 ， 而 其 他 性 质 的 变量 则 存 
储 在 内 存 堆栈 中 。 这 意味 着 ， 当 一 个 程序 包含 如 “i++” 这 样 的 声明 时 ， 其 中 i 是 一 个 局 部 变 
量 ， 编 译 器 认为 其 不 能 保留 在 寄存 器 中 时 ， 编 译 器 会 为 该 变量 在 堆栈 中 提供 一 个 位 置 。 在 load- 
store 机 器 上 该 语句 执行 的 伪 代 码 指令 如 下 : 

1. 将 特定 堆栈 偏 移 量 中 的 对 应 于 变量 i 的 数据 项 加 载 到 寄存 器 中 ; 

2. 将 该 寄存 器 中 存储 的 值 加 1; 
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3. 保存 寄存 器 的 内 容 到 刚才 从 中 读 取 数据 的 堆栈 偏 移 位 置 。 

如 果 后 续 有 一 个 对 变量 i 的 判决 〈 例 如 ，ifi > 100 then. .. ) ， 编 译 器 就 知道 i 已 经 位 于 某 个 
寄存 器 之 中 ， 因 此 在 随后 的 比较 和 判决 中 它 会 重新 使 用 该 寄存 器 。 有 些 变量 ， 正 如 我 们 所 提 到 
的 ， 在 整个 计算 过 程 中 都 可 以 保留 在 寄存 器 中 。 这 一 切 都 取决 于 有 多 少 寄 存 器 可 用 、 总 共有 多 少 
变量 以 及 对 变量 的 访问 频率 如 何 。 

实际 上 ， 程 序 员 几 乎 无 法 控制 哪些 变量 应 存储 在 寄存 器 中 ， 哪 些 要 保存 在 一 个 堆栈 中 ， 尽 管 
C 编程 语言 中 有 register 关键 字 可 以 要 求 编 译 器 如 果 可 能 的 话 保存 变量 在 寄存 器 中 。 例 如 ， 如 果 
我 们 想 保 存 i 在 寄存 器 中 (如 果 可 能 ) ， 我 们 会 如 下 声明 i， 

register int i=0，; 

泄漏 代码 (spill code) 得 名 于 少数 机 器 代码 指令 ， 执 行 这 些 指令 时 编译 器 会 在 程序 中 增加 在 
存储 器 和 寄存 器 之 间 存 取 变 量 的 操作 。 由 于 内 存 访 问 远 远 慢 于 寄存 器 访问 ， 因 此 泄漏 的 代码 不 
仅 会 轻微 增加 程序 的 大 小 ， 而 且 对 执行 速度 也 有 不 利 影响 。 长 期 以 来 ， 尽量 减 少 泄漏 代码 一 直 是 
编译 器 研究 人 员 和 计算 机 体系 结构 设计 者 的 目标 。 


3.4.5 数据 处 理 


两 个 8 位 的 整数 相 加 ， 在 一 个 8 位 处 理 器 上 通常 是 一 件 简 单 的 事 ， 在 32 位 处 理 器 上 执行 两 
个 8 位 整数 相 加 也 相对 比较 简单 “， 因 为 两 者 的 算术 运算 可 以 用 一 条 单一 的 指令 执行 。 

这 种 单一 的 指令 通常 很 容易 由 硬件 完成 : 从 寄存 器 将 两 个 操作 数 送 给 ALU， 然 后 将 结果 传 
送 回 另 一 个 寄存 顺 。 

当 用 一 个 更 小 的 处 理 器 处 理 更 大 的 数 ， 并 且 是 更 复杂 的 处 理 时 ， 情 况 会 变 得 更 有 趣 。 让 我 们 
依次 考虑 三 种 可 能 性 : 操作 数 大 于 处 理 器 的 宽度 、 在 一 个 定点 CPU 上 处 理 浮 点 数 以 及 复数 的 
情况 。 
3.4.5.1 在 小 位 宽 CPU 上 处 理 大 位 宽 数字 

由 于 C 编程 语言 可 以 定义 32 位 甚至 64 位 的 数据 类 型 ， 因 此 ， 任 何 服务 于 8 位 、16 位 甚至 
32 位 CPU 的 C 编译 器 必须 能 够 支持 比 处 理 器 的 设计 宽度 更 大 的 算术 和 逻辑 运算 。 

首先 请 注意 ， 许 多 处 理 器 ， 具 有 指定 的 数据 总 线 宽 度 ， 实 际 上 却 支 持 更 高 精度 的 算术 运算 。 
例如 ， 大 多 数 ARM 处 理 器 能 够 执行 两 个 32 位 数 的 乘法 。 我 们 知道 ， 这 种 操作 的 结果 的 最 大 规模 
可 能 是 64 位 。ARM 中 原始 的 乘法 器 可 能 只 允许 将 结果 的 低 32 位 存储 到 目标 寄存 器 。 然 而 ， 在 
新 的 ARM 处 理 器 上 ， 一 个 “长 乘法 ”指令 允许 将 完整 的 64 位 结果 存储 到 两 个 32 位 的 目标 寄存 
器 中 。 由 此 可 见 ， 存 储 结果 的 操作 将 需要 两 倍 长 的 时 间 来 完成 (但 这 比 使 用 其 他 方法 来 确定 高 
32 位 而 言 还 是 节省 了 很 多 时 间 )。 

我 们 来 看 一 下 在 一 个 没有 “长 ”乘法 指令 的 ARM 处 理 嚣 上， 我 们 如 何 能 够 执行 64 位 乘法 
(但 请 注意 ， 这 未 必 是 完成 这 件 事 的 最 快 方式 ) : 

加 载 操作 数 1 的 低 16 位 到 RI1。 
加 载 操 作 数 1 的 高 16 位 到 R2 。 
加 载 操作 数 2 的 低 16 位 到 R3。 
加 载 操 作 数 2 的 高 16 位 到 R4。 
RO= RI xR3。 
RO=RO+(R2xR3) <<16。 
.RO=RO+(RI xR4) <<16。 





于 DFT 





日 ”注意 将 8 位 值 放 到 32 位 寄存 器 中 时 需要 先进 行 符号 扩展 〈 见 2. 3.8 节 ) ， 否 则 负数 的 补 码 会 产生 错误 。 
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8. RO = RO + (R2 x R4) <<32。 


在 图 3-13 中 进行 了 解释 说 明 ， 其 中 数据 载 人 被 看 做 设置 阶段 ， 乘 法 和 加 法 运算 作为 操作 阶 
段 。 在 操作 阶段 ， 需 要 进行 四 个 乘法 、 三 个 移 位 和 三 个 加 法 从 而 得 到 计算 结果 。 
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图 3-13 本 框图 阐明 了 执行 一 个 32 位 x32 位 =64 位 乘法 ， 其 多 步 又 程序 执行 时 所 需 的 设置 阶段 和 
计算 阶段 ， 所 使 用 的 乘法 器 硬件 只 能 够 返回 32 位 的 结果 ( 即 16 位 x16 位 =32 位 的 硬件 ) 
这 里 明确 的 信息 是 ， 缺 乏 一 个 单独 的 “长 ”乘法 指令 意味 着 将 采用 一 些 额外 的 操作 来 代替 ， 
并 可 能 用 到 额外 的 寄存 器 。 当 然 ， 也 有 上 比 这 里 所 示 的 稍 快 或 开销 较 低 的 方法 ， 在 某 些 情况 下 也 可 
[06] 以 实现 。 然 而 ， 对 于 通用 乘法 没有 什么 比 使 用 一 个 专 有 指令 更 好 。 
较 长 数据 的 逻辑 运算 很 简单 : 拆 分 操作 数 ， 对 拆 分 后 的 每 一 部 分 分 别 进行 逻辑 运算 ， 然 后 再 把 结 
果 重 新 拼 在 一 起 即 可 。 这 是 因为 在 二 进 制 字 中 每 一 位 的 逻辑 运算 结果 并 不 影响 其 相 邻 位 的 运算 结果 。 
算术 运算 则 比 逻 辑 运算 需要 多 考虑 一 些 事情 〈 但 比 乘法 或 除法 简单 ) 。 算 术 运 算 的 问题 是 溢 
出 : 两 个 16 位 数字 相 加 的 结果 可 能 是 17 位 。 因 此 ， 当 对 拆 分 的 数字 相 加 时 必须 考虑 到 额外 的 位 
107] ( 即 进位 ) 。 通 常情 况 下 ， 会 先 计 算 低 字 节 部 分 ， 然 后 将 进位 加 到 高 字 节 部 分 的 计算 结果 中 。 
3. 4.5.2 定点 CPU 上 的 浮 点 数 
我 们 已 经 在 2.8 节 讨论 了 浮 点 数 ， 并 在 2.9 节 中 讨论 了 浮 点 数 处 理 。 大 部 分 情况 下 ， 当 我 们 
在 计算 机 体系 结构 中 讨论 “ 浮 点 ”时 ,我 们 指 的 是 符合 IEEE754 标准 的 浮 点 数 。 事 实 上 ， 大 多 
数 的 硬件 浮 点 单元 也 是 按照 IEEE754 标准 实现 的 。 
没有 浮 点 运算 能 力 的 处 理 器 ， 要 么 依赖 于 编译 器 的 支持 ， 把 每 个 C 程序 中 的 浮 点 运算 转化 
为 更 慢 的 定点 运算 子 程序 ， 要 么 编译 成 浮 点 机 器 代码 指令 ， 然 后 由 处 理 器 通过 捕获 〈trap) 执 
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行 。 这 种 捕获 效果 上 是 一 个 中 断 触发 ， 由 收 到 一 个 处 理 器 不 能 处 理 的 指令 而 触发 。 然 后 由 中 断 服 
务 程序 负责 执行 特定 的 浮 点 运算 ， 直 到 返回 正常 执行 位 置 ， 中 断 服务 程序 也 是 采用 定点 代码 完 
成 。 这 就 是 所 谓 的 浮 点 仿真 (FPE) ， 将 在 4. 6.1 节 进 一 步 研究 。 第 一 种 方法 只 适用 于 程序 员 知 
道 在 编译 的 时 候 FPU 是 否 存在 ， 所 以 可 能 不 适合 通用 的 软件 ， 如 在 个 人 计算 机 上 。 

当 一 个 系统 中 不 包含 硬件 FPU 时 ， 用 FPE 替代 (或 编译 器 替代 ) 可 能 不 会 实现 完整 的 
IEEE754 标准 ， 因 为 全 部 实现 将 使 得 速度 相当 缓慢 。 因 此 ， 代 码 最 终 将 可 能 没有 程序 员 预 期 的 那 
样 准 确 〈 也 慢 了 很 多 ) 。 

让 我 们 回 过 头 来 看 2.9.1 节 和 2.9.2 节 ， 我们 已 经 讨论 了 浮 点 数 的 加 法 /减法 和 乘法 ， 加法/ 
减法 的 过 程 中 需要 一 个 规格 化 的 过 程 ， 而 乘法 过 程 中 只 需要 直接 计算 ， 尽 管 包含 几 个 子 计算 。 如 
2.9.2 节 中 的 简单 乘法 : 

(AxB')x(DxB:) = (AxD) x 再 (Cr8) 

对 于 配 有 FPU 的 机 器 ,，(4 xB") 和 (D xB*) 将 是 单独 的 32 位 〈 单 精度 ) 或 64 位 〈 双 精 
度 ) 值 。 它 们 将 被 分 别 载 人 两 个 FPU 寄存 器 ， 一 个 单独 的 指令 发 出 乘法 执行 命令 ， 从 目的 FPU 
寄存 器 中 将 得 到 运算 结果 。 相 比 之 下 ， 对 于 没有 FPU 的 机 器 ， 将 需要 几 个 定点 运算 如 下 ， 

. 拆 分 尾数 4 和 指数 C， 分 别 存 储 在 Rl1 和 R2 中 。 
- 拆 分 尾数 D 和 指数 已， 分别 存储 在 R3 和 R4 中 。 
. 计算 新 的 尾数 : R1 x R3 。 

. 计算 新 的 指数 : R2 + R4。 

. 规格 化 指数 。 

. 以 IEEE754 格式 重组 并 存储 。 

显然 ， 独 立 的 FPU 指令 优 于 用 几 个 定点 数 的 运算 操作 来 代替 。 
3. 4. 5.3 复数 

复数 ， 其 形式 为 (a +j.5)， 其 中 j= V -1, 经 常用 于 科学 系统 和 无 线 通 信和 系统。 几乎 所 有 
CPU 都 不 支持 复数 ， 而 且 也 很 少 有 编程 语言 对 复数 有 所 考虑 s 。 

一 个 硬件 系统 中 的 复数 计算 实际 上 只 是 处 理 实数 ， 就 像 浮 点 数 计算 是 使 用 定点 运算 来 完成 
一 样 ， 会 需要 几 个 步骤 。 考 虑 两 个 复数 的 乘法 和 加 法 运算 : 

(gat+j.b) xce+jid)= (a.c-db) +i(a.d+b.c) 
(a+j.b) +(c+jd)= (a+te) +j(b +d) 

复数 乘法 需要 4 个 实数 乘法 和 两 个 加 法 。 复 数 的 加 法 稍微 简单 一 些 ， 只 需要 两 个 实数 相 加 。 
这 要 求 程序 员 (或 编译 器 ) 能 够 将 操作 拆 分 成 几 个 简单 的 指令 步 又 。 

对 复数 运算 有 硬件 支持 的 处 理 器 ， 应 具备 单独 的 指令 才能 够 执行 这 些 操 作 。 而 底层 的 硬件 
体系 结构 实际 上 需要 执行 所 有 的 拆 分 、 子 操作 及 分 别 进行 乘法 ,但 是 这 些 在 CPU 内 部 处 理会 非 
常 迅速 ， 无 需 分 别 载 人 数据 、 存 储 和 移动 数据 。 


3.5 自 顶 向 下 方法 
3. 5. 1 计算 机 的 能 力 
纵 观 今天 各 种 不 同 的 处 理 器 ， 它 们 都 有 各 自 不 同 的 功能 、 时 钟 频率 、 位 宽 以 及 指令 集 等 。 我 
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© 注意 有 一 个 例外 是 FORTRAN 语言 (FORmula TRANslation) ， 它 是 IBM 在 20 世纪 50 年 代 中 期 推出 的 通用 编译 语 
言 。FORTAN 语言 已 经 更 新 了 几 次 (最 新 一 次 是 在 2003 年 ) ， 从 50 多 年 以 前 开始 ， 该 语言 本 身 就 支持 复数 数据 
类 型 。 在 现代 编程 语言 中 ，Java 作为 一 门 科学 语言 已 经 在 复数 扩展 上 有 一 些 推 广 ， 但 不 幸 的 是 ， 现 在 Java 明显 
比 FORTRAN 的 执行 速度 慢 很 多 。 
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们 的 问题 是 究竟 我 们 需要 怎样 的 一 台 计 算 机 ? 以 下 将 对 计算 机 的 能 力 进 行 探讨 。 
3.5.1.1 功能 

假如 所 有 的 计算 功能 都 可 以 通过 一 串 逻 辑 操作 完成 ， 那 么 为 什么 不 是 所 有 的 功能 都 采用 这 
种 方式 〈 即 可 能 的 一 长 串 逻 辑 操作 ) 来 实现 呢 ” 主 要 原因 是 其 与 效率 有 关 一 一 该 功能 需要 多 长 
时 间 完 成 和 需要 什么 样 的 硬件 来 完成 ”将 计算 机 变 得 简单 从 而 可 以 使 用 更 快 的 时 钟 是 需要 一 些 
折 中 的 ， 这 导致 了 RISC 的 出 现 ， 它 相对 简单 且 时 钟 更 快 一 一 其 代价 是 必须 用 多 个 步骤 来 执行 某 
些 功 能 ， 而 CISC 则 是 将 多 个 功能 通过 一 条 指令 来 实现 。 

而 在 确定 如 何 实现 一 个 特定 功能 之 前 考虑 一 下 该 功能 在 软件 中 的 使 用 频率 是 有 实际 意义 的 。 
简单 来 说 ， 如 果 一 个 功能 在 日 常 使 用 时 经 常 被 用 到 ， 则 设置 一 个 专 有 硬件 来 快速 地 处 理 它 也 许 
是 很 有 用 的 。 如 此 ， 在 所 有 现代 的 处 理 器 里 都 含有 ALU， 而 且 几 乎 所 有 处 理 器 也 都 含有 乘法 
单元 。 

不 仅 是 CPU 的 功能 ，CPU 指令 集 的 灵活 性 也 是 CPU 的 一 个 重要 特征 。 例 如 ， 尽 管 省 时 指令 
( time-saving instruction) 使 用 简单 的 硬件 就 可 以 实现 ， 但 并 不 是 所 有 的 设计 都 支持 。 同 样 的 例子 
还 有 比如 在 ARM 指令 集中 普遍 存在 的 条 件 指令 ( 见 3.3. 1 节 ) 和 在 一 些 数字 信号 处 理 器 中 的 零 
开销 循环 指令 〈zero- overhead loop instruction ， 稍 后 在 5. 6. 1 节 介 绍 ) 。 

CPU 的 内 部 结构 如 总 线 数 量 、 寄 存 器 数量 以 及 它们 的 组 织 ， 也 是 CPU 性 能 的 一 个 重要 考虑 
因素 。 总 体 而 言 ， 更 多 的 总 线 意味 着 有 更 多 的 数据 可 以 同时 传输 ， 由 此 可 以 获得 更 好 的 性 能 。 类 
似 地 ， 更 多 的 寄存 器 可 以 存储 更 多 的 软件 变量 ， 从 而 不 需要 频繁 访问 较 慢 的 内 存 ， 由 此 又 可 以 改 
善 CPU 的 性 能 。 

3.5. 1.2 时 钟 频 率 

更 高 的 时 钟 频 率 并 不 总 是 意味 着 更 快 的 操作 。 例 如 ,设计 一 个 快速 ALU 相对 简单 ， 而 设计 
一 个 快速 的 乘法 单元 则 难得 多 。 当 比较 两 款 处 理 器 时 ， 单 考虑 时 钟 频率 是 不 能 断定 哪 款 处 理 器 
更 快 的 。 还 需要 考虑 如 功能 、 总 线 带 宽 、 内 存 速度 等 因素 ， 实 际 上 ， 应 该 问 : 在 一 个 时 钟 周期 内 
可 以 完成 什么 ”这 个 问题 将 在 下 一 节 讨 论 。 
3.5.1.3 位 宽 

直到 最 近 ， 用 于 手表 、 计 算 器 等 中 的 绝 大 部 分 CPU 都 是 4 位 处 理 器 ， 而 各 式 用 于 手机 和 网 
络 应 用 的 32 位 处 理 器 (一 般 都 是 基于 ARM 的 ) 则 开始 将 重心 移 向 更 高 位 宽 的 处 理 器 。 

虽然 看 上 去 更 高 位 宽 的 处 理 器 会 获得 更 快 的 执行 速度 ， 但 这 仅 是 对 于 所 要 处 理 的 数据 能 够 
使 用 这 么 多 位 的 情况 而 言 的 。 高 端的 服务 器 使 用 了 64 位 甚至 128 位 的 体系 结构 ,但 是 如 果 用 于 
处 理 文 本 (如 7 位 或 8 位 ASCII 或 16 位 Unicode)， 那么 更 多 的 位 宽 将 会 被 浪费 。 
3.5.1.4 内 存 

与 处 理 器 相连 的 内 存 也 是 决定 处 理 速度 的 关键 因素 ,不 仅仅 是 内 存 的 访问 速度 ， 位 宽 (也 
指 带宽 ， 位 / 秒 ) 和 技术 也 同样 重要 。 其 他 因素 还 包括 突 发 访问 模式 、 分 页 或 分 包 、 单 沿 或 双 沿 
时 钟 。 

片上 存储 并 不 都 是 单 周 期 访问 的 ， 而 是 比 片 外 存储 稍 快 一些 。 给 定 某 一 软件 任务 ， 则 需要 考 
虑 需要 提供 多 少 片 上 存储 和 多 少 片 外 存储 。cache (4.4 节 ) 就 是 用 于 最 大 化 高 速 存储 的 使 用 ， 
而 内 存单 元 的 硬件 复杂 度 通常 也 影响 着 内 存 使 用 的 优化 。 就 内 存 而 言 ， 软 件 的 写法 和 编译 方法 
通常 也 影响 着 硬件 资源 的 利用 效率 。 


3. 5.2 性 能 衡量 和 统计 


为 了 确定 计算 机 的 执行 速度 ， 最 简单 而 通用 的 方法 是 测试 其 在 每 秘 能 处 理 多 少 条 指令 。 
MIPS (每 秒 百 万 条 指令 ) 是 用 于 衡量 指令 和 操作 处 理 的 速度 。 这 是 一 个 有 用 的 低层 次 衡量 ， 
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但 它 并 不 真正 反映 计算 机 能 力 : 有 些 操 作 本 身 很 简单 ， 因 此 多 个 操作 可 以 用 来 实现 一 个 有 用 的 
任务 。 换 句 话 说 ,一 个 简单 的 拥有 高 MIPS 的 计算 机 (如 RISC 处 理 器 ) 在 处 理 实际 的 任务 时 也 
许 会 比 一 个 拥有 低 MIPS 但 其 每 条 指令 可 以 完成 多 个 工作 的 计算 机 (如 CISC 处 理 器 ) 要 慢 。 
bogomips 是 在 Linux PC 启动 时 计算 出 来 的 ， 它 是 一 个 著名 的 测量 软件 MIPS 的 尝试 ， 但 它 并 不 是 
太 精 确 。 

MIPS 由 时 钟 频率 / (单位 Hz) 和 CPI (每 条 指令 周期 数 ) 决定 : 

MIPS = f/CPI 

更 一 般 地 ， 对 于 某 一 个 包含 了 条 指令 的 程序 ， 其 完成 时 间 为 ; 
Time = (已 xCPI)A 

所 以 CPI 越 低 、 越 高 或 P 越 少 ( 即 指令 越 少 的 程序 执行 时 间 可 能 会 越 短 ) 则 完成 时 间 
Tuue 越 短 。 在 现代 CPU 的 时 钟 频率 都 已 经 提高 时 ， 计 算 机 体系 结构 里 的 已 和 CPI 之 间 的 折 中 又 
让 话题 重新 加 到 RISC 和 CSIC 之 间 的 竞争 上 。 

降低 CPI 是 当代 计算 系统 设计 的 一 个 方面 。20 世纪 80 年 代 ，CPI 大 于 2， 在 一 些 CISC 处 理 
器 中 可 以 达到 几 百 。 而 RISC 方法 则 降低 了 CPI， 它 的 目标 是 使 CPI 接近 于 1。ARM 系列 处 理 器 
典型 的 CPI 大 约 为 1. 1， 而 其 他 一 些 处 理 器 会 比 这 个 值 更 低 一 些 。 

之 后 ， 超 标量 体系 结构 的 出 现 使 得 CPI 低 于 1， 这 是 通过 允许 多 条 指令 同时 执行 而 获得 的 。 
CPI 和 其 倒数 (IPC) 将 在 5.5.1 节 中 进行 探讨 。 

有 些 时候 浮 点 性 能 也 是 一 个 重要 的 因素 ， 其 单位 为 MFLOPS (每 秒 百 万 次 浮 点 运算 )。 最 近 ， 
GFLOPS 更 经 常 被 使 用 ， 它 指 千 MFLOPS ， 甚 至 还 有 petaFLOPS (PFLOPS)。 这 些 值 比 MIPS 更 能 
真实 地 反映 实际 性 能 ， 这 是 因为 我 们 需要 统计 更 有 用 的 计算 操作 数 而 不 是 低层 次 的 指令 数 。 

标准 检测 程序 (benchmark) 是 很 重要 的 ， 多 家 公司 都 已 经 提供 这 种 产品 〈 框 3.8 探讨 了 标 
准 检 测 程序 的 背景 及 其 必要 性 ) 。BDTi 是 标准 检测 程序 的 一 个 例子 ， 它 用 于 比较 几 个 数字 信号 处 
理 器 〈(DSP) 的 速度 。 其 测量 倾向 于 整体 的 计算 性 能 ， 而 计算 性 能 是 DSP 市 场 的 支柱 。 

而 SPECint 和 SPECfp 标准 检测 程序 直接 计算 整数 和 浮 点 性 能 ， 可 以 通过 向 标准 性 能 评定 组 
织 (Standard Performance Evaluation Corporation ，SPEC ) 付费 获得 其 源 代 但 格式 ， 并 可 以 在 某 一 
个 体系 结构 上 编译 从 而 获得 其 性 能 评估 。 每 个 测量 都 是 通过 计算 一 系列 算法 并 将 结果 混合 而 获 
得 的 。 一 般 而 言 ， 年 份 代表 了 SPEC 的 版 本 ， 因 此 SPECint92 就 是 SPEC 整数 标准 的 1992 年 版 本 。 

SPEC 测试 本 身 包含 了 两 个 测试 : Dhrystone 和 Whestone ， 它 们 都 起 源 于 20 世纪 70 年 代 ， 分 
别 用 于 衡量 整数 性 能 和 浮 点 性 能 。 还 有 其 他 一 些 影响 性 能 的 因素 分 别 用 于 衡量 不 同 任务 的 性 能 
(如 图 形 演 染 、 实 时 性 能 、 字 节 处 理 等 ) 。 
ue 江 济 基准 性 能 

在 20 世纪 80 年 代 中 期 ， 全 世界 计算 机 产业 发 现 制造 商 之 间 一 个 意 想 不 到 层次 的 竞争 。 这 并 不 是 简单 
的 AMD 与 Intel 之 间 的 赛跑 ， 而 是 上 千 厂家 所 销售 的 各 种 各 样 的 计算 机 一 一 不 同 的 体系 结构 、 不 同 的 内 存 、 
几 十 种 CPU 类 型 、 定 制 的 操作 系统 、8 位 、16 位 甚至 一 些 非 常规 选择 。 

在 英国 ， 如 Sinclair、Acom、Orc、Amstrad 、Research Machines 、Apricot 、Dragon 、ICL、 Ferranti、 
Tandy 、Triumf- Adler 等 公司 在 市 场 上 开始 与 IBM、Apple、Compaq、DEC、Atari 、Commdore 等 公司 对 抗 。 各 
种 与 性 能 相关 的 争论 在 广告 和 宣传 小 册 上 随处 可 见 。 然 而 ， 由 于 没有 标准 和 基准 ， 这 些 争论 通常 都 毫 无 
意义 。 

为 此 ， 英 国标 准 协会 (British Standards Institute，BSI) 为 计算 机 出 台 了 一 个 性 能 标准 ， 它 测试 一 些 有 
用 的 任务 如 整数 计算 、 浮 点 计算 、 跳 转 性 能 和 图 形 性 能 ， 以 及 磁盘 读 写 等 。 然 而 ， 由 于 当时 可 选 的 编程 语 
言 为 BASIC， 所 以 这 个 测试 软件 是 用 BASIC 写 的 。 从 今天 的 观点 来 看 ， 图 形 和 磁盘 读 写 测试 已 经 过 时 : 
“图 形 ”测试 是 测试 将 文本 输出 到 屏幕 上 或 虚拟 显示 单元 (VDU) 的 时 间 。 这 对 许多 只 对 字 处 理 感 兴趣 的 
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用 户 来 说 很 重要 。 而 磁 误 读 写 是 指 软盘 ( 比 磁带 快 得 多 ， 当 时 在 一 般 家 用 机 器 上 都 有 配备 ) ， 硬 盘 (当时 
称 为 温 切 斯 特 驱 动 器 ) 十 分 员 贵 ， 当 时 一 些 主流 的 计算 机 都 没有 配备 。 而 那 时 程序 更 多 的 是 存储 在 磁 
带 上 。 

今天 ， 计 算 机 杂志 和 网 站 用 于 新 硬件 和 软件 的 测试 都 带 有 电池 测试 ， 它 与 BSI 相差 很 远 ， 但 初衷 都 是 
一 样 的 。 因 此 ,“ 玩 Quake 亚 时 的 刷新 率 ” 和 “对 100 万 行 随机 数 进行 排序 ”等 测试 都 相继 出 现 。 也 有 其 他 
一 些 标准 (一般 都 不 是 免费 获得 的 )， 但 极 少 采用 ; 毕竟 ， 大 部 分 用 户 对 玩 Quake 比 对 多 快 能 计算 到 小 
数 点 后 100 位 更 感 兴趣 。 

然而 ， 众 所 周知 ， 为 了 测试 某 一 项 性 能 ， 计 算 机 设计 人 员 会 通过 牺牲 其 他 方面 的 性 能 来 让 其 
设计 在 这 一 项 性 能 上 获得 较 高 的 分 值 。 而 这 种 测试 并 不 能 真正 反映 任何 任务 的 整体 完成 时 间 ， 
而 只 是 某 最 简单 任务 单独 执行 的 时 间 。 所 以 像 中 断 任务 ,操作 系统 调用 ,不同 的 内 存 速 度 、 磁 盘 
速度 ， 多 任务 执行 以 及 cache 都 会 影响 测试 结果 。 

在 计算 机 里 ，cache (4.4 节 有 详细 讨论 ) 是 提供 给 系统 的 一 块 高 速 存 储 ， 而 系统 上 有 一 块 
更 慢 的 主 存 。 任 何 程序 在 cache 上 执行 都 比 在 主 存 上 执行 明显 要 快 得 多 。 这 有 什么 关系 呢 ， 在 过 
去 有 的 处 理 器 制造 商 通过 增加 cache 大 小 以 装 下 整个 性 能 测试 算法 (如 整个 SPECint 或 Dhrystone 
程序 ) ， 如 此 获得 了 比 其 他 竞争 者 的 机 器 更 快 的 执行 速度 。 

在 这 个 例子 中 ， 如 果 主 存 的 速度 比 cache 慢 10 倍 ， 性 能 的 测试 结果 并 不 会 因此 而 改变 ， 因 
为 整个 测试 程序 都 是 在 cache 上 执行 而 不 是 在 主 存 上 。 显 然 ， 这 样 的 一 个 性 能 测试 并 不 能 反映 真 
实情 况 。 事 实 上 ， 这 样 的 机 器 会 比 那些 拥有 更 小 cache 和 更 大 主 存 的 机 器 获得 更 快 的 执行 速 
度 一 一 在 执行 实际 任务 时 会 快 些 。 

在 给 定 一 些 如 我 们 之 前 所 提 到 的 重要 可 变性 能 因素 的 情况 下 ,显然 当前 的 性 能 测试 将 面临 
一 些 困 难 ， 系 统 设计 人 员 会 由 此 变 得 小 心 器 费 。 在 实际 中 ， 这 可 能 意味 着 需要 理解 设备 运行 的 细 
节 ， 构 建 大 量 的 安全 机 制 ， 或 在 交付 设备 之 前 现场 测试 最 终 代 码 。 虽 然 在 实际 的 工业 生产 里 极 少 
会 出 现 软 件 设计 完成 而 硬件 并 没有 完成 的 情况 ， 但 如 果 这 种 情况 出 现 ， 那么 现场 测试 还 是 很 值 
得 推荐 的 。 


3. 5. 3 ”性 能 评估 


6.4.4 节 将 对 实时 系统 和 多 任务 系统 的 完成 时 间 与 执行 性 能 进行 讨论 ， 而 这 里 我 们 将 讨论 如 
何 进 行 性 能 评估 。 为 了 强调 精确 性 能 评估 的 重要 性 ， 这 里 举 一 个 工业 上 的 例子 : 

几 年 以 前 ， 一 个 谋 入 式 设计 小 组 需要 一 块 处 理 能 力 为 12MIPS 的 硬件 运行 一 个 算法 。 他 们 选中 了 一 个 
以 40MHz 频率 工作 、 提 供 40MIPS 处 理 能 力 的 32 位 处 理 器 。 为 了 降低 设计 风险 ， 设 计 人 员 在 把 该 处 理 器 确 
定 为 最 终 选 择 前 ， 拿 到 了 一 块 开 发 板 ， 在 其 上 装载 了 Dhrystone 测试 程序 并 试图 测试 其 真实 性 能 。 

在 设计 的 过 程 中 ， 他 们 发 现 片 上 存储 不 能 满足 他 们 的 软件 的 需要 并 由 此 增加 了 额外 的 DRAM。 由 于 
CPU 本 身 封装 很 小 并 且 管 脚 数 很 少 ， 因 此 将 外 部 存储 总 线 限制 为 16 位 宽 。 外 部 存储 的 访问 由 此 从 32 位 宽 
变 为 16 位 宽 。 

在 完成 硬件 设计 并 搭建 好 系统 后 他 们 装 上 了 程序 ， 却 发 现在 执行 时 间 上 并 不 满足 需要 ， 他 们 走 错 哪 一 
步 了 呢 ? 

首先 ，Dhrystone 测试 程序 能 完全 存放 在 快速 的 片上 存储 里 ， 并 由 此 可 以 全 速 执行 。 而 他 们 的 程序 太 大 
不 能 完全 装 在 片上 存储 里 ， 因 此 需要 存放 在 DRAM 上 。 片 外 DRAM 不 仅 访问 速度 比 片上 存储 慢 ， 而 且 还 需 
要 间歇 性 “超时 ”来 更 新 自己 。 在 “超时 ”期 间 ， 来 自 CPU 的 所 有 访问 都 要 停顿 。 

其 次 ，16 位 的 接口 使 得 对 每 条 32 位 的 指令 需要 两 次 访 存 来 取 指 ， 而 每 个 32 位 的 数据 也 同样 需要 两 次 
访 存 。 这 就 意味 着 ， 每 当 程序 是 从 DRAM 上 执行 时 ，CPU 有 一 半 时 间 是 空闲 的 。 在 每 个 奇数 周期 取出 指令 
的 前 半 部 分 ， 在 每 个 偶数 周期 取出 指令 的 后 半 部 分 ， 然 后 才能 处 理 它 。 

16 位 接口 导致 执行 速度 从 40MIPS 降 为 20MIPS， 而 DRAM 的 慢 速 访问 和 更 新 时 间 将 20MIPS 性 能 进 一 
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步 降 低 至 9MIPS 左右 。 

解决 这 个 问题 的 方案 也 并 不 令 人 满意 ; 更 换 为 速度 具有 更 快 但 费用 为 原来 20 倍 的 片 外 存储 〈SRAM ) ， 
或 是 将 CPU 升级 为 具有 更 快 的 处 理 速度 或 拥有 更 宽 的 外 存 访问 接口 ， 或 两 者 尼 具 。 但 设计 人 员 并 没有 采用 
任何 一 种 方法 ， 而 是 在 其 旁边 增加 了 一 块 CPU 来 处 理 部 分 任务 。 

这 个 例子 强调 了 性 能 需求 与 硬件 相 匹 配 的 必要 性 。 总 体 而 言 ， 目 前 有 两 种 方法 来 实现 性 能 
测试 。 第 一 种 是 通过 对 体系 结构 清晰 地 理解 ， 第 二 种 是 通过 细致 地 评估 体系 结构 。 对 于 这 两 种 方 
法 ， 体 系 结构 不 仅仅 指 处 理 器 ， 还 包括 其 他 重要 的 外 设 。 

清晰 地 理解 软件 需求 意味 着 需要 确定 系统 上 运行 的 软件 ， 分 析 软 件 的 具体 要 求 〈 特 别 是 瓶 
颈 ) ， 然 后 根据 分 析 的 结果 找到 匹配 的 硬件 。 在 最 基本 的 层次 上 ， 这 意味 着 当 大 部 分 计算 为 浮 点 
计算 时 需要 避免 使 用 仅 支 持 整 数 的 CPU 。 

这 种 方法 通常 为 DSP 系统 设计 所 采用 ， 其 评估 内 容 包 括 内 存 传输 ， 使 得 对 变量 能 够 同时 进 
行 访问 的 不 同 的 内 存 区 域 布局 (4.1.4 节 ) ， 输 入 和 输出 瓶颈 ， 以 及 对 于 这 类 处 理 器 最 重要 的 算 
术 运 算 等 。 除 了 整体 程序 存储 容量 需求 之 外 ， 慢 速 机 构 、 用 户 接 口 以 及 控制 代码 在 这 种 计算 中 都 
会 被 忽略 。 

在 此 有 必要 指出 ， 大 部 分 的 软件 开发 完 之 后 所 需 的 初始 程序 内 存 空间 比 估 计 的 要 大 。 良 好 
的 编码 能 够 降低 数据 内 存 的 使 用 ,减少 处 理 时 对 内 存 的 需求 ,但 无 法 节省 太 多 程序 占用 内 存 的 
空间 。 与 台式 计算 机 设计 人 员 不 同 ， 坐 人 式 设 计 人 员 不 能 提供 RAM 扩展 : 这 往往 是 在 设计 时 就 
已 经 定好 的 。 由 此 ， 给 内 存 足 够 的 元 余 是 明智 之 举 。 

上 面 提 到 的 第 二 种 使 所 需 性 能 与 硬件 匹配 的 方法 是 细致 地 评估 。 这 种 方法 不 需要 了 解体 系 
结构 的 细节 ， 但 是 需要 了 解 每 个 层次 测试 的 细节 。 理 想 状 次 下， 最 终 运行 的 软件 需要 在 候选 硬件 
上 执行 以 便 对 它 需 要 消耗 多 少 CPU 时 间 进 行 评 估 。 对 其 他 的 任务 也 需要 进行 测试 ， 以 确定 这 些 
任务 在 硬件 上 执行 是 否 有 处 理 时 间 宛 余 。 软 件 分 析 工 具 (如 GNU gprof) 将 指出 运行 代码 的 瓶 
颈 ， 找 出 软件 的 哪些 部 分 需要 耗费 大 量 CPU 时 间 。 

多 次 运行 每 一 个 测试 很 有 必要 〈 但 如 果 对 时 序 要 求 严 格 时 不 能 取 结 果 的 平均 值 ， 则 应 采用 
最 坏 的 结果 ) ， 测 试 时 可 以 大 幅度 增加 软件 大 小 以 使 其 超出 cache 或 片上 存储 的 承载 能 力 ， 如 果 
可 以 还 应 允许 最 终 系统 上 的 任何 中 断 和 辅助 任务 。 

如 果 目 标 软件 在 其 他 机 器 上 已 经 运行 过 (大 部 分 情况 都 是 如 此 ) ， 可 以 将 其 在 不 同 机 器 上 的 
执行 进行 比较 一 一 但 必须 同时 考虑 在 前 面 两 章 里 所 讨论 的 所 有 重要 的 体系 结构 因素 。 在 这 种 情 
况 下 ， 在 两 台 机 器 上 编译 和 比较 标准 检测 程序 会 有 所 帮助 (假设 所 选 的 标准 检测 程序 与 目标 软 
件 相关 )。 

当前 全 世界 范围 有 很 多 设计 人 员 错 误 地 评估 处 理 器 性 能 和 (或 ) 内 存 需求 的 例子 〈 其 中 
包括 1999 年 作者 给 亚洲 某 制 造 商 所 做 的 设计 : 设计 一 个 便携 式 MP3 播放 器 ， 由 于 没有 预料 到 
它 的 内 存 总 线 带 宽 很 低 ， 因 此 它 每 次 只 能 重 放 7 秒 钟 的 MP3 音频 。 还 好 它 后 来 采用 了 更 快速 
的 处 理 器 ) 。 

请 注意 ， 要 时 刻 警 惕 性 能 测试 评估 的 陷阱 。 尤 其 重要 的 是 ， 要 记得 阅读 手册 中 性 能 声明 下 的 
附属 条 件 。 


3.6 小 结 

本 章 的 讨论 覆盖 了 微 处 理 器 基础 内 容 ， 从 CPU 的 功能 ， 到 CPU 对 程序 的 控制 ， 最 后 到 程序 
的 传输 和 存储 。 

控制 单元 需要 保证 处 理 器 按 规则 执行 ， 管 理 操作 和 异常 ， 并 能 在 计算 机 程序 的 引导 下 接受 
一 系列 指令 。 控 制 单 元 可 以 是 集中 式 的 ， 或 根据 状态 机 的 时 序 为 分 布 式 ， 或 微 指令 引擎 ， 或 采用 
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自 定 时 逻辑 。 


程序 中 每 条 指令 都 是 所 允许 指令 集中 的 一 部 分 (取决 于 你 的 观点 ) ， 它 描述 了 处 理 器 能 执行 


的 操作 ， 或 指定 处 理 器 的 行为 ， 这 些 行为 包括 通过 内 部 总 线 将 数据 传输 到 不 同 的 功能 单元 。 通 过 
上 一 章 和 本 章 对 CPU 设计 基础 的 铺垫 ， 我 们 将 在 第 4 章 对 目前 主流 CPU 的 内 部 布局 和 功能 单元 
进行 深入 探讨 ， 并 尝试 把 编程 人 员 的 经 历 融 合 于 其 中 。 


3.1 如 果 汇编 指令 LSL 表示 “逻辑 左 移 ” ，LSR 表示 “让 辑 右 移 "”，ASL 表示 “算术 左 移 "”，ASR 表示 “ 算 


3.2 


3.3 


3.4 


3.5 


3.6 
3.7 


术 右 移 " ， 那 么 对 以 下 的 有 符号 16 位 数字 操作 后 的 结果 是 什么 ? 
a. 0x00CR ASR 1 
0x0101 LSR 12 
OxFFOF LSL 2 
OxFFOF LSR 2 
e. DxFFOF ASR 3 


pn 


OxFFOF ASL 3 


对 一 个 RISC 处 理 器 的 典型 代码 ( 只 包含 8 种 指令 ) 进行 分 析 后 得 到 以 下 这 些 指令 的 出 现 次 数 统计 : 


























a. 如 果 每 条 指令 (不 包括 操作 数 ) 为 6 位 长 ， 那 么 这 个 程序 将 占据 多 少 位 内 存 空间 ? 
pb. 使 用 以 上 信息 对 这 些 指令 设计 霜 夫 曼 编码 。 
计算 对 指令 集 采 用 霍 夫 曼 编码 后 的 程序 需要 占据 多 少 内 存 空 间 。 

给 出 执行 以 下 逆 波 兰 表示 法 (RPN) 操作 时 堆栈 的 PUSH 和 POP 队列 ， 并 将 每 条 RPN 转换 成 中 级 表 
达 式 : 
aabt 
b.ab+cx 
c.ab xcdsin+ 一 
考虑 执行 以 上 操作 所 需 的 最 大 堆栈 容量 。 
ROT (rotate) 指令 与 移 位 指令 相似 ， 只 是 它 要 回 绕 一 一 当 向 右 移 位 时 ， 从 字 的 LSB 端 出 来 的 每 一 位 
成 为 新 的 MSB; 当 向 左 移 位 时 ， 从 该 字 的 MSB 出 来 的 每 一 位 成 为 新 的 LSB。 

ROT 的 参数 为 正 时 进行 左 移 ， 为 负 时 进行 右 移 。 

假如 一 台 计 算 机 只 有 ROT 指令 而 设 有 移 位 指令 ， 如 何 进 行 算术 运算 和 逻辑 位 移 操作 ? 
将 以 下 中 缀 表达 式 转换 为 RPN: 
a (A and B) orC 
b. (A and B) or (C and D) 
ce, ( (AorB) andC)+D 
d.C+i{ipow (A, B) xD 
e. 能 否 使 用 3 种 方法 对 下 式 进 行 转换 : iC +pow (A, B)} xD 
分 别 计算 上 题 。 中 三 种 方法 所 需 的 堆栈 深度 。 
将 下 列 RPN 转换 为 中 缀 表达 式 : 
a. AB+C+Dx 
b. ABCDE + xx 一 
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c. DC not and BA + 十 
使 用 条 件 指 令 ADDS 重 写 下 列 ARM 汇编 代码 ， 移 除 所 有 跳 转 指令 。 


ADDS RO, R1, R3 


BGE step2 

ADD R2, R1, R6 

BLT step3 
step2 ADD R2, R3, R6 
Step3 NOP 


使 用 ARM 汇编 语言 时 ， 确 定 进行 以 下 立即 数 加 载 时 所 需 的 最 少 指令 数 (提示 : 使 用 MOV 指令) : 
a. 加 载 0x12340001 至 寄存 器 RO 
b， 加载 0x00000700 至 寄存 器 RI 
c， 加 载 0xFFFFOFFO 至 寄存 器 R2 
写 出 在 一 个 RISC 处 理 器 上 将 两 个 内 存 地 址 ml 和 m2 上 的 内 容 进 行 相 加 后 再 将 结果 存 到 地 址 m3 上 的 
操作 序列 。 
科学 家 发 现 了 新 的 内 存单 元 硅 片 ， 半 导体 工程 师 将 这 种 硅 片 设计 成 新 的 存储 芯片 。 指 出 计算 机 体系 
结构 设计 人 员 需 要 考虑 的 6 个 因素 ， 以 决定 是 否 将 这 种 新 技术 应 用 在 租 入 式 视频 播放 器 的 主 存储 
器 上 。 
指出 下 列 指令 是 来 自 RISC 还 是 CISC 处 理 器 。 
a MPX: 将 内 存 两 个 地 址 上 的 内 容 相 乘 ， 然 后 将 结果 加 到 累加 器 上 。 
b，BCDD: 将 两 个 寄存 器 里 的 内 容 进 行 BCD 码 的 相 除 ， 结 果 使 用 科学 记 数 法 表示 ， 并 以 ASCII 的 形 
式 存 放 在 内 存 块 中 ， 为 在 显示 器 上 显示 做 好 准备 。 
c SUB: 对 两 个 操作 数 进行 相 减 ， 结 果 作为 第 三 个 操作 数 。 操 作 数 和 结果 都 为 寄存 器 的 内 容 。 
d. LDIV Re，Ra，Rb: 执行 100 个 时 钟 周期 的 长 除法 : Ra/Rb， 将 结果 放 在 寄存 器 Re 中 。 
写 一 个 微 指令 程序 来 实现 上 题 中 任意 的 两 个 指令 。 假 设 是 在 一 个 RISC 体系 结构 上 执行 。 
什么 是 加 载 存 储 (load-store) 体系 结构 ? 为 什么 计算 机 设计 者 会 采用 这 种 方法 ? 
在 一 个 简单 的 流水 线 上 ， 指 令 取 指 阶段 之 后 跟着 什么 处 理 ? 
假设 有 一 个 32 位 处 理 器 ， 其 指令 以 十 六 进 制 机 器 码 的 形式 存储 。 在 内 存 位 置 0x9876 上 存储 字 
0x1234， 其 指令 如 下 : 
0x0F00 1234 088D 9876 
观察 该 指令 机 器 码 ， 确 定 这 个 处 理 器 是 否 支 持 绝对 寻 址 。 解 释 你 的 答案 。 
假设 另外 有 一 个 8 位 处 理 器 ， 拥 有 8 个 寄存 器 。 问 这 个 处 理 器 的 指令 是 否 能 够 支持 两 个 寄存 器 操作 
数 和 一 个 结果 寄存 器 操作 数 ? 


假设 以 下 指令 为 ARM 汇编 语言 (对 ARM 处 理 器 不 是 必需 的 ) ， 指 出 以 下 指令 的 寻 址 方式 : 
a. MOV R8, #0x128 

b. AND 

€¢. STR R12, [R1] 

d. AND R4, R5, R4 

e. LDR R6, {[R3, RO, LSL #2] 

f. LDR R2, [R1, RO, #8] 

g- STR R6, [R3, RO]J 


哪 种 处 理 器 处 理 32 位 浮 点 数据 会 更 快 ; 900MHz 的 32 位 泽 点 CPU 或 2GHz 的 16 位 整数 CPU? 
对 不 同 处 理 器 写 C 程序 时 ，byte 是 否 总 是 表示 为 8 位 ? shor 和 int 类 型 呢 ? 它们 的 大 小 为 多 少 ? 是 否 
总 是 相同 ? 
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在 第 2 章 中 ， 我 们 已 经 讲述 了 由 计算 机 提供 的 大 部 分 数值 计算 ， 也 对 计算 机 的 功能 单元 给 出 
了 定义 并 对 计算 机 一 些 内 部 连接 结构 给 出 了 分 类 。 在 第 3 章 中 ， 前 面 提 及 的 这 些 机 构 又 组 合成 一 
个 有 着 不 同 功 能 的 完整 结构 ， 用 来 执行 由 程序 员 编 写 的 指令 序列 。 因 此 ， 我 们 知道 计算 机 ， 特 别 
是 CPU， 可 以 在 逻辑 上 分 为 多 个 用 来 执行 不 同 任务 的 功能 单元 。 

这 一 章 ， 我 们 进一步 给 出 CPU 内 部 组 成 的 高 级 描述 ， 并 且 集 中 讨论 当今 处 理 器 中 常见 的 最 
大 、 最 显著 、 最 重要 的 内 部 单元 。 我 们 将 更 细致 地 探讨 这 些 单元 执行 什么 样 的 任务 以 及 它们 怎样 
具体 执行 这 些 任 务 。 这 些 讨论 主要 覆盖 算术 逻辑 运算 单元 (ALU) 、 浮 点 运算 单元 (FPU) 、 内 存 
管理 单元 (MMU) 以 及 高 速 缓冲 存储 系统 单元 。 在 开始 着 手 讨 论 上 述 问 题 之 前 ， 我 们 将 首先 考 
虑 这 些 单 元 是 如 何 通过 总 线 连接 起 来 的 。 

是 时 候 去 接触 真正 的 体系 结构 ， 特 别 是 CPU 内 各 个 单元 的 内 部 互联 总 线 结构 了 。 


4.1 内 部 总 线 结构 


4.1.1 程序 员 的 角度 


从 程序 员 的 角度 出 发 ， 一 个 处 理 器 的 内 部 总 线 结构 可 以 从 两 个 相互 联系 的 方面 来 看 。 第 一 ， 
寄存 器 使 用 的 灵活 性 。 显 然 在 可 用 的 寄存 器 集合 中 ， 这 些 寄存 器 可 以 在 一 条 特殊 指令 中 直接 作 
为 操作 数 。 以 ARM 为 例 ， 寄 存 器 操作 数 是 允许 的 ， 任 何 寄存 器 组 中 的 寄存 器 可 以 进行 如 下 操作 : 


ADD RO, R1, R2 ;RO=RI1+R2 

可 以 使 用 任何 寄存 器 ， 甚 至 可 以 使 用 相同 的 寄存 器 : 

ADD RO, RO, RO ;RO=R0O+RO 

很 多 处 理 器 没有 这 样 的 灵活 性 或 者 灵活 性 稍 差 。 第 二 ， 在 一 条 指令 周期 中 能 够 做 多 少 工作 
也 是 程序 员 所 关注 的 ， 这 个 问题 一 般 都 隐 含 在 指令 集 自身 当中 。 再 以 ARM 为 例 ， 对 于 其 任何 算 
术 或 者 逻辑 指令 ， 必 然 有 最 多 两 个 输入 操作 数 寄存 器 和 一 个 结果 操作 数 寄存 器 : 

ADD RO, R1, R2 ;R0=R1 十 R2 

关于 寄存 器 和 ALU 之 间 的 数据 传输 方法 : 如 果 传 人 和 传 出 都 在 一 个 周期 内 完成 ， 则 意味 着 
输入 和 输出 都 有 着 各 自 的 总 线 ( 因为 在 任何 时 刻 只 能 有 一 操作 
数 在 一 条 总 线 上 传输 ) 。 一 条 总 线 传输 R1 的 内 容 ， 另 一 条 则 
传输 R2 的 内 容 ， 还 有 一 条 用 来 将 结果 从 ALU 写 回 到 寄存 
絮 RO。 

从 以 上 内 容 中 会 发 现 ， 每 个 寄存 器 都 与 一 条 属于 自己 的 总 
线 相连 ， 因 此 这 至 少 需 要 三 条 内 部 总 线 。 

关于 寄存 器 和 ALU 的 排列 我 们 可 以 从 对 如 图 4-1 所 示 的 指 
令 集 的 简单 分 析 中 归纳 出 来 。 这 实际 上 是 对 ARM 处 理 器 内 部 
互联 结构 的 简单 原理 前 述 。 其 中 箭头 指示 着 可 控 的 三 态 缓冲 | 
器 ， 三 态 缓冲 器 作为 门 来 控制 寄存 器 和 总 线 之 间 的 读 写 操作 。 图 4-1 一 个 ALU 与 个 寄存 器 组 
此 处 没有 给 出 控制 逻辑 (在 3.2.4 节 中 已 经 讲 过 )。 通过 一 个 三 路 总 线 相连 








EH 第 二 操作 数 总 线 
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4. 1.2 分 解 互联 排列 


ARM 之 所 以 如 此 著名 ， 是 因为 它 的 规整 性 和 简洁 性 。 其 他 的 一 些 处 理 器 对 底层 程序 员 来 说 
不 是 特别 友好 ， 而 ARM 由 于 是 由 16 个 完全 相同 的 寄存 器 以 完全 相同 的 方式 连接 而 成 的 寄存 器 
组 ,因此 往往 可 以 赋予 寄存 器 集合 以 特殊 的 用 途 。 对 这 些 寄存 器 集合 最 常见 的 排列 就 是 分 派 几 
个 寄存 器 成 为 专用 的 存储 和 处 理 地 址 的 地 址 寄存 器 ， 而 其 他 的 为 数据 寄存 器 。 设 计 一 个 只 用 来 
连接 这 些 地 址 寄存 器 的 内 部 地 址 总 线 ， 是 一 种 容易 想到 的 分 解 方法 。 在 ARM 中 ， 每 个 寄存 器 都 
可 以 存放 地 址 〈 因 为 可 以 直接 寻 址 ， 详 见 3.3.4 节 ) ， 每 个 寄存 器 也 必须 和 内 部 地 址 总 线 相连 。 122 

在 一 些 处 理 器 中 ， 比 如 ADSP21xx， 并 没有 寄存 器 组 ， 取 而 代 之 的 是 每 一 个 处 理 单元 都 有 附 
带 的 输入 输出 专用 寄存 器 。 这 意味 着 当 在 这 些 处 理 器 上 运行 一 条 特殊 指令 时 ， 底 层 程 序 员 必 须 
记 住 (或 者 查询 程序 手册 ) 哪个 寄存 器 是 允许 使 用 的 。 有 时 候 为 了 执行 某 个 功能 ， 不 得 不 浪费 
一 条 指令 来 将 一 个 寄存 器 中 的 值 传 到 另外 一 个 寄存 器 ， 尽 管 聪明 的 指令 集 设 计 可 以 尽量 减少 这 
些 无 效率 的 操作 。 目 前 ， 通 用 处 理 器 已 经 很 少 使 用 这 类 体系 结构 ， 但 是 依旧 可 以 在 数字 信号 处 理 
器 中 找到 类 似 的 结构 ， 比 如 ADSP21xx° 系 列 处 理 器 。 

为 什么 设计 者 要 自 找 麻烦 设计 如 此 复杂 的 指令 集 呢 ? 这 个 问题 的 答案 需要 我 们 对 处 理 器 所 
要 完成 的 一 些 功 能 做 个 快速 扫 视 。 在 这 个 例子 中 ,我 们 可 以 观察 到 ARM 是 使 用 如 图 4-2 所 示 的 
硬件 来 完成 以 下 功能 的 : 


MUL RO, R1, R2 ;RO0O=R1+R2 
ADD R4, R5, R6 ;R4=R5+R6 


图 4-2 显示 了 数据 从 Rl 和 R2 同时 输出 到 两 条 操作 数 总 线 上 〈 用 深 色 线 标 出 ) ， 然 后 进入 乘 
累加 单元 (MAC) ， 再 将 结果 通过 结果 总 线 送 回 RO。 
在 这 张 图 里 值得 注意 的 是 ，R3 以 前 的 寄存 器 以 及 ALU 都 处 于 闲置 状态 。 当 CPU 设计 者 看 到 
有 资源 闲置 时 ， 他 们 会 尝试 着 尽 可 能 将 这 些 闲 置 资源 利用 起 来 ， 比 如 ， 可 否 有 一 种 方法 能 够 将 
ALU 和 MAC 同时 利用 起 来 。 这 个 问题 的 答案 是 如 图 4-3 所 示 的 划分 设计 。 
be 
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图 4-2 一 个 ALU、 一 个 MAC 以 及 一 组 寄存 器 以 图 4-3 一 个 ALU、 一 个 MAC 以 及 一 组 寄存 器 以 


三 路 总 线 相互 连接 的 排列 原理 示意 图 。 三 路 总 线 相互 连接 的 排列 原理 示意 图 。 
本 图 着 重 展 示 该 结构 能 同时 传送 两 个 操 这 与 图 4-2 中 的 资源 使 用 方式 类 似 ， 不 
作 数 到 一 个 功能 单元 的 能 力 过 这 里 由 于 使 用 了 总 线 划分 ， 从 而 允许 两 


个 功能 单元 同时 向 〈 从 ) 总 线 传送 数据 123 





日 ”实际 上 ， 寄 存 器 R14 和 R15 分 别 是 链接 寄存 器 和 程序 指针 寄存 器 〈 程 序 计数 器 ) 。 单 从 指令 集 分 析 很 难看 到 这 
个 特征 。 另 外 ， 寄 存 器 功能 还 会 因 它们 的 影子 (shadowing) 安排 的 不 同 而 有 所 变化 。 

加 “xx” 是 指 在 ADSP21 系列 产品 中 有 不 同 的 产品 系列 号 ， 这 一 系列 产品 具有 同样 的 特点 ， 如 ADSP2181、 
ADSP2191 等 。 
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如 图 中 排列 所 示 ，MAC 和 ALU 都 有 它们 各 自 的 输入 和 结果 总 线 ， 通 过 扩展 ， 它 们 也 有 各 自 
优先 使 用 的 寄存 器 集合 。 这 样 ， 只 要 程序 员 记 住 了 在 调用 MAC 时 使 用 RO ~ R3 ， 以 及 在 调用 ALU 
时 使 用 R4 ~ R7 就 可 以 了 ， 这 样 示 例 指 令 : 

MUL RO, R1, R2.,;R0=RI1+R2 

ADD R4, R5, R6 ;R4=R5+R6 


就 可 以 在 一 个 周期 内 完成 。 
这 个 过 程 也 许 是 受 ADSP21xx 的 设计 影响 ,使 得 设计 者 尽 可 能 地 去 追逐 处 理 器 的 性 能 提升 。 


4. 1.3 ADSP21xx 总 线 排列 


在 ADSP21xx 的 硬件 中 ， 每 个 处 理 单元 都 是 有 限制 的 ， 它 们 只 能 从 一 小 部 分 寄存 器 中 读 人 数 
据 ， 也 只 能 将 结果 写 回 到 一 小 部 分 寄存 器 中 。 这 意味 着 ， 在 这 个 处 理 器 中 有 很 多 内 部 总 线 和 操作 
可 以 以 并 行 的 方式 快速 执行 。 

图 4-4 简单 地 描述 了 ADSP21xx 众多 内 部 总 线 的 一 部 分 。 在 该 图 中 ，PMA 代表 了 程序 存储 器 
的 地 址 ，DMA 是 数据 存储 器 的 地 址 。 这 两 个 地 址 总 线 都 与 程序 存储 器 和 数据 存储 器 相连 ， 这 也 
说 明 该 处 理 器 采取 了 哈佛 体系 结构 〈 见 2.1.2 节 )。 然 而 ， 从 其 对 地 址 空间 的 划分 来 讲 ， 它 比 基 
本 的 哈佛 体系 结构 又 更 深入 了 一 步 。 PMD 和 DMD 分 别 代 表 了 程序 和 数据 内 存 总 线 。 注 意 总 线 的 
大 小 ，ADSP 不 仅 在 内 部 总 线 互联 上 比较 复杂 ， 而 且 其 总 线 宽度 也 各 不 相同 。 
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图 4-4 ADSP 内 部 总 线 排列 示意 图 


该 图 显示 了 ALU 和 MAC (不 包括 移 位 器 ) 可 以 从 PMD 总 线 上 接受 24 位 的 输入 ， 还 可 以 从 
16 位 的 DMD 上 接受 输入 ， 同 时 也 可 以 对 其 进行 输出 。 


4. 1. 4 ”数据 与 程序 同时 访 存 


在 诸如 数字 信号 处 理 (DSP) 领域 中 ， 有 一 个 重要 问题 就 是 外 部 数据 可 以 以 多 快 的 速度 进入 
处 理 器 ， 然 后 得 到 处 理 并 最 终 输 出 。 数 字 信 和 号 处 理 器 一 般 都 是 对 一 些 流 数 据 进 行 操作 ， 比 如 高 保 
真 的 音频 信号 或 者 无 线 宽 带 信和 号 。 

数字 信号 处 理 操作 往往 是 某 些 形式 的 数字 滤波 。 可 以 考虑 一 段 时 间 内 的 信号 采样 ，*[0] ， 
x*[1]，x[2] 等 ,分别 表 示 时 刻 0 (当前 时 刻 ) 的 采样 、 前 一 个 时 刻 的 采样 、 前 两 个 时 刻 的 采 
样 ， 依 次 类 推 。y[0] ，y[1] ，y[2] 是 根据 这 些 时 刻 采 样 而 输出 的 结果 值 。 如 果 这 些 信 号 为 音频 
数据 ， 那 么 x 和 yy 应 该 是 音频 信号 采样 ， 可 以 是 16 位 ， 如 果 我 们 以 48kHz 的 频率 进行 采样 ， 则 
上 面 所 说 的 时 间 间 隔 为 1/48 000 =21hs。 

我 们 不 去 深究 数字 信号 处 理 的 原理 ,在 这 里 仅 简 单 介绍 两 个 通用 的 滤波 公式 : 有 限 冲 激 响 
应 (FIR) 滤波 和 无 限 冲 激 响 应 (IIR) 滤波 。FIR 的 输出 是 将 前 个 采样 与 一 些 预 设 好 的 值 相 乘 
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站 


7YL0] = Dali ] x x[ 


所 以 ， 当 前 的 输出 y[0] 是 由 前 ， 个 输入 数据 分 别 乘 以 滤波 系数 a[]j 然后 全 部 累加 在 一 起 所 
得 到 的 。 输 入 数据 的 个 数 决定 了 滤波 器 的 阶 数 。 一 个 10 阶 的 滤波 器 应 该 预先 定义 n=10 并 且 提 
前 设 定好 10 个 滤波 系数 a[] 。 一 个 自 适应 的 FIR 滤波 器 可 以 让 滤波 系数 随 着 时 间 的 变化 而 变化 。 
相反 ，IIR We 其 数学 形式 可 以 写成 : 


y[0] = oli ] xx[il + DE 了] x [Li] 


这 个 公式 包含 了 一 个 更 加 高 级 的 滤波 系数 6[] 。IIR 滤波 器 同样 是 自 适 应 的 ， 并 且 _- 般 可 以 
完成 和 FIR 滤波 器 一 样 的 工作 ， 但 是 在 阶 数 较 低 的 情况 下 (n 值 较 小 ) 。 这 种 强大 的 滤波 计算 需 
要 付出 一 定 的 代价 ， 可 以 看 到 如 果 设计 得 不 够 仔细 ，IIR 滤波 器 也 有 可 能 变 得 不 稳定 。 

设计 一 个 高 性 能 数字 信号 处 理 器 的 关键 在 于 尽快 地 完成 这 些 公式 ， 也 就 是 在 尽 可 能 少 的 时 
钟 周期 内 计算 y[0] 值 。 回 过 头 来 查看 FIR 公式 ， 我 们 可 以 看 出 这 种 类 型 的 计算 基本 上 都 是 在 重 
复 以 下 的 底层 操作 : 

ACC:= ACC + (a[i] x [i])) 

符 两 个 人 村 加 上 某 个 在 的 信和 为 时 加 《waphyr ecmiac) 它 需要 使 用 一 
加 器 ， 通 常 简写 为 ACC。 现 在 我 们 需要 将 这 个 功能 与 数字 7 
信号 处 理 器 的 硬件 联系 起 来 ， 这 里 有 很 多 巧妙 的 设计 可 以 
讨论 ， 但 最 重要 的 一 点 是 安排 好 存储 器 访问 。 

从 图 4-5 中 我 们 可 以 看 到 一 个 数字 信号 处 理 器 包含 了 
一 个 CPU 、 两 个 存储 模块 和 一 个 外 部 共享 存储 器 。 这 个 设 





备 看 上 去 也 是 采用 了 哈佛 体系 结构 (程序 与 数据 分 开 存 SE 

储 ， 独 立 总 线 ) ， 但 同时 又 与 一 个 外 部 共享 存储 器 相连 。 

这 种 类 型 的 存储 器 安排 是 很 常见 的 ， 一般 内 部 存储 都 是 ”图 4-5 er 
下 i 参见 7. 儿 

ee SUA 储 器 和 内 部 数据 存储 器 ， 也 

节 对 存储 技术 及 其 特点 的 详细 介绍 )。 支持 外 部 共享 存储 器 


片上 存储 器 一 般 都 采用 较 短 的 总 线 并 且 速 度 非常 快 ， 

有 时 可 以 在 一 个 时 钟 周期 内 取 到 指令 。 有 些 情况 下 ， 也 采用 两 周期 的 存储 模块 ， 而 之 所 以 该 存储 
需要 使 用 两 个 周期 ， 是 因为 其 请 求 数据 占用 一 个 周期 ， 将 数据 有 效 化 占用 一 个 周期 。 

我 们 现在 暂时 忽略 存储 器 的 速度 ， 再 看 一 下 乘 累加 这 个 例子 。 我 们 需要 给 乘法 器 输入 两 个 
值 : 一 个 预先 设 定好 的 滤波 系数 a[] 和 输入 数据 *[] 。 在 一 个 共享 总 线 下 ， 不 可 能 同时 获取 或 者 
传送 这 两 个 数据 。 然 而 ， 以 图 中 的 内 部 分 离 式 总 线 设计 ， 如 果 这 两 个 数据 分 别 来 自 两 个 独立 的 片 
上 存储 器 ， 则 它们 可 以 同时 获取 并 可 以 在 一 个 周期 内 完成 乘法 操作 。 总 体 来 看 ， 这 将 是 一 个 多 周 
期 操作 : 一 个 周期 载 人 指令 并 进行 译 码 ， 接 下 来 的 周期 载 人 操作 数 ， 之 后 的 一 个 或 多 个 周期 对 这 
些 操作 数 完成 相应 的 操作 。 然 而 ， 考 虑 到 快速 单 周期 片上 存储 器 的 存在 ， 取 操作 数 有 可 能 成 为 内 
部 指令 周期 的 一 部 分 。 

通常 ， 任 何在 片 外 总 线 上 的 传送 速度 要 比 片 上 的 慢 ， 这 也 是 使 用 cache 存储 的 一 个 主要 原因 
( 详 见 4.4 节 )。 往 往 在 有 SDRAM 外 存 的 地 方 通常 都 会 有 片上 cache 来 缓解 SDRAM 带 来 的 问题 ， 
这 个 问题 就 是 不 论 SDBRAM 有 多 快 ， 总 会 在 对 存储 器 进行 数据 访问 和 数据 准备 时 有 2 ~3 个 周期 
的 延迟 。 
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4. 1.5 双 总 线 体 系 结构 


退 一 步 说 ， 大 量 人 硬件 的 节省 是 压缩 总 线 数量 的 结果 一 一 在 集成 电路 中 ， 总 线 是 由 一 束 并 行 
的 硬 连 线 组 成 ， 不 同 的 缓存 、 寄 存 器 或 者 互联 结构 配置 ， 有 着 不 同 的 总 线 成 本 。 对 于 珍贵 的 硅 面 
积 来 讲 ， 这 些 实际 占用 芯片 面积 的 总 线 无 疑 会 影响 其 总 成 本 。 因 此 ， 通 过 采用 双 总 线 结构 来 降低 
芯片 面积 (以 及 成 本 ) 是 完全 有 可 能 的 ， 采 用 单 总 线 结构 效果 会 更 好 ( 见 4.1.6 节 )。 

在 这 里 我 们 采用 的 实例 并 没有 与 计算 机 体系 结构 的 发 展 做 出 对 比 。 之 所 以 这 样 做 是 因为 一 
个 三 总 线 的 结构 比 一 个 单 总 线 的 结构 更 容易 让 人 接受 ， 也 更 易于 解释 。 设 计 单 总 线 结构 是 需要 
技巧 的 ， 这 种 应 用 于 硅 片 上 的 技巧 曾 在 20 世纪 80 年 代 前 出 现 过 ,但 是 这 却 无 法 复杂 化 一 个 简单 
的 观点 ， 那 就 是 总 线 就 是 一 条 位 于 源 操 作 数 和 目的 结果 值 之 间 的 路 径 。 本 章 中 所 有 的 例子 都 是 
虚构 的 ， 它 们 呈现 出 一 些 类 似 于 ARM 体系 结构 的 东西 ， 但 在 总 线 安排 上 却 又 不 一 样 。 原 始 的 简 
化 总 线 的 设计 ， 例 如 值得 尊敬 的 6502 处 理 器 ， 只 有 很 少 的 寄存 器 组 和 一 个 乘法 器 。 这 里 隐 含 着 
一 个 问题 ， 那 就 是 硅 片 面积 过 小 的 限制 带 来 一 个 很 好 的 体系 结构 | | 总线 1 
设计 ， 有 时 候 甚至 是 具有 较 高 时 效 性 体系 结构 的 设计 。 在 仅仅 有 生生 -| 基 天 | 
三 个 通用 寄存 器 的 限制 下 ，6502 的 设计 者 从 来 没 想 过 去 设计 另 了 上 
外 一 条 并 行 的 总 线 ， 而 是 在 有 限 的 硬件 资源 下 增加 了 一 些 寄 RS py 
存 器 。 

图 4-6 显示 了 一 个 寄存 器 组 与 ALU 相连 的 双 总 线 排 列 ， 在 
ALU 周围 有 三 个 寄存 器 或 锁 存 器 (不 考虑 较 大 的 寄存 器 组 ， 这 
跟 6502 非常 相似 ) 。 图 4-6 连接 和 寄存 器 组 

为 了 实现 这 一 设计 ， 并 且 让 接 下 来 的 例子 更 有 意义 ,我们 有 人 
必要 回顾 一 下 关于 ALU 的 一 些 知识 ， 这 就 是 传输 延迟 时 间 。 当 我 们 给 ALU 的 两 个 输入 端 送 入 稳 
定 的 电信 号 时 ， 需 要 等 待 一 定 的 时 间 来 获取 最 终 有 效 的 计算 结果 。 一 些 控制 逻辑 (图 4-6 中 未 给 
出 ) 用 来 控制 ALU 应 该 执行 哪些 具体 的 算术 或 逻辑 操作 。 但 是 具体 的 等 待 时 间 是 由 具体 的 操作 
所 决定 的 ， 最 大 时 间 (也 就 是 最 坏 情 况 ) 决定 了 在 这 块 ALU 电路 上 的 时 钟 能 运行 的 频率 。 在 当 
今 系统 中 ， 这 种 延迟 一 般 为 一 个 或 两 个 纳 秒 。 

这 种 延迟 不 能 忽略 ， 但 这 里 的 问题 是 没有 有 效 的 最 小 延迟 ， 这 意味 着 只 要 输入 信和 号 被 取消 
或 发 生 改变 ， 输 出 结果 就 会 混乱 。 这 个 问题 所 带 来 的 结果 就 是 输入 操作 数 必 须 保存 在 一 个 地 方 
来 驱动 ALU 完成 计算 结果 输出 和 存储 ， 只 有 这 些 做 完 ， 输 入 才 可 以 改变 。 

因此 ，ALU 的 输入 端 必 须 配 置 寄存 器 。 对 于 一 个 用 双 总 线 来 驱动 ALU 的 结构 来 说 ， 要 想 同 
时 输入 数据 和 得 到 结果 ， 必 须 至 少 配备 一 个 寄存 器 。 如 果 有 两 个 寄存 器 ， 那 么 就 会 有 更 多 的 可 稍 
微 节省 硬件 的 方案 供 选择 ， 不 过 影响 更 多 的 是 下 面 的 操作 : 

ADD RO, R1, R2 ;RO=FR1+R2 

下 面 每 个 序号 标注 的 步 又 按时 间 顺 序 执行 : 

1. 建立 系统 ， 清 空 总 线 并 且 将 ALU 的 功能 调制 成 加 法 模式 ; 

2. 让 寄存 器 R1 驱动 总 线 1 (打开 寄存 器 的 输出 缓冲 器 ) ， 让 寄存 器 R2 驱动 总 线 2; 

3. 将 总 线 1 上 的 数据 锁 存 进 ALU 的 第 一 个 操作 数 寄存 器 ， 同 时 让 总 线 2 上 的 数据 锁 存 进 
ALU 的 第 二 个 操作 数 寄 存 器 ; 

4. 关闭 R1 的 寄存 器 输出 缓冲 器 (总线 1 空闲 ) ， 关 闭 R2 的 寄存 器 输出 缓冲 器 ( 总线 2 空 
闲 ) ; 

5. 等 待 最 大 的 传输 延迟 时 间 ; 

6. 将 ALU 的 结果 锁 存 进 ALU 的 输出 缓冲 器 中 ; 
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7. 允许 ALU 的 输出 缓冲 器 驱动 一 个 总 线 ; 

8. 将 刚刚 计算 出 的 结果 锁 存 进 寄存 器 RO 中 ; 

9. 关闭 ALU 的 输出 缓冲 器 〈 两 个 总 线 空 闲 ， 系 统 准备 好 下 次 操作 ) 。 

可 以 看 到 ， 非 常 简单 的 加 法 指令 实际 上 包含 了 很 多 必须 在 硬件 上 执行 的 步 又。 除了 ALU 的 
传输 延迟 外 ， 这 个 过 程 共有 8 个 步骤 。 在 三 路 总 线 的 设计 中 ( 见 4.1.1 节 )， 这 样 的 一 个 加 法 也 
许 只 需要 3 个 时 间 周 期 或 者 说 3 步 。 

一 个 简单 加 法 指令 的 复杂 执行 步骤 说 明了 在 CPU 中 控制 单元 的 重要 性 ( 见 3.2.4 节 )。 你 能 
想象 得 到 对 一 个 多 周期 的 CISC 指令 进行 控制 的 复杂 性 吗 ? 


4. 1.6 单 总 线 体系 结构 


单 总 线 体系 结构 可 以 从 上 一 节 的 内 容 中 推测 出 来 。 我 们 仍然 使 用 一 个 ARM 风格 的 处 理 器 作 
为 例子 ， 这 个 结构 也 许 和 图 4-7 看 上 去 很 相似 。 
注意 体系 结构 简洁 性 的 设计 ， 其 实 就 是 将 这 个 例子 中 的 多 步骤 操作 的 复杂 性 给 掩盖 掉 。 我 
们 考虑 上 一 节 中 的 那个 计算 功能 ， 其 在 单 总 线 体系 结构 下 的 表现 为 : 
. 建立 系统 ， 清 空 总 线 并 且 将 ALU 的 功能 调制 成 加 法 模式 ; 
. 让 寄存 器 R1 驱动 总 线 (打开 寄存 器 的 输出 缓冲 器 ) ; 
. 将 总 线 上 的 数据 锁 存 进 ALU 的 第 一 个 操作 数 寄存 器 ; 
. 关闭 R1 的 寄存 器 输出 缓冲 器 ， 让 寄存 器 R2 驱动 总 线 ; 
. 将 总 线 上 的 数据 锁 存 进 ALU 的 第 二 个 操作 数 寄 存 器 ; 
. 关闭 RI1 的 寄存 器 输出 缓冲 器 ， 等 待 ALU 的 最 大 传输 延迟 ; 
. 将 ALU 的 结果 锁 存 进 ALU 的 输出 缓冲 器 中 ; 
. 允许 ALU 的 输出 缓冲 器 驱动 总 线 ; 
. 将 计算 结果 锁 存 进 寄 存 器 RO 中 ; 
10. 关闭 ALU 的 输出 缓冲 器 (总线 空 闲 ， 系 统 准 备 好 下 次 操作 ) 。 
与 上 一 节 中 的 双 总 线 体系 结构 相 比 ， 多 出 来 的 两 步 和 效率 的 降低 值得 注意 。 历 史上 对 单 总 
线 体系 结构 的 改进 就 是 增加 了 一 个 非常 短 且 低 成 本 的 结果 反馈 总 线 ， 如 图 4-8 所 示 。 
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图 4-7 连接 ALU 和 寄存 器 组 的 单 路 总 线 图 4-8 以 如 图 4-7 所 示 连 接 ALU 和 寄存 器 组 的 单 
总 线 结构 为 基础 ， 增 加 了 一 个 从 ALU 的 输 
出 到 ALU 输入 锁 存 的 反馈 连接 
虽然 在 这 里 有 几 个 备 选 方案 也 可 以 执行 以 上 操作 ， 但 是 所 有 都 是 将 ALU 的 运算 结果 反馈 到 
ALU 输入 的 一 支 。 这 也 许 对 于 累加 操作 或 者 随后 的 算术 /逻辑 操作 有 有 用。 这样， 图 中 ALU 左边 的 
寄存 器 就 成 了 著名 的 累加 器 ， 它 几乎 是 所 有 操作 的 基础 ， 在 整个 系统 中 是 使 用 频率 最 高 的 ， 也 是 
程序 员 的 朋友 。 老 牌 底层 程序 员 熟 悉 并 喜爱 累加 器 ， 其 中 很 多 人 为 它 被 RISC 和 CISC 所 扼杀 而 感 
到 伤心 。 新 西 兰 的 著名 工程 管理 专家 Adrian Busch 总 结 道 :“ 如 果 CPU 没有 一 个 累加 器 ， 那 就 算 
不 得 一 个 真正 的 CPU。” 
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4.2 算术 逻辑 单元 
4.2.1 ALU 功能 


显然 ， 一 个 算术 逻辑 单元 (ALU) 作为 计算 机 的 一 部 分 用 来 执行 算术 和 逻辑 操作 。 但 是 这 
些 操作 具体 是 指 什么 下面 两 个 处 理 器 的 ALU 操作 也 许 会 对 我 们 有 所 提示 
。 ADSP2181 一 一 加 、 减 、 自 增 、 自 减 、 与 、 或 、 异 或 、 传 递 /清空 、 取 反 、 非 、 绝 对 值 、 
和 置 位 、 位 测试 、 位 翻转 。 有 一 些 限制 是 某 些 寄存 器 只 能 用 做 输入 并 且 只 有 两 个 寄存 器 可 
以 用 做 输出 。 
。 ARM7 一 一 加 、 减 、 自 增 、 自 减 、 与 、 或 、 异 或 、 传 递 /清空 、 非 。 所 有 的 寄存 器 既 可 以 
用 做 输入 寄存 器 ， 也 可 以 用 做 输出 寄存 器 。 
一 般 情 况 下 ，ALU 执行 按 位 逻辑 操作 、 测 试 、 加 或 减 。 同 时 ， 通 过 对 以 上 这 些 多 个 ALU 操 
作 进 行 组 合 ， 可 以 派生 出 许多 其 他 的 功能 操作 。 
一 个 基本 的 ALU， 能 够 执行 加 法 和 减法 ， 可 以 分 割 为 单个 位 的 操作 链 ， 与 2.4.2 节 中 的 进位 
传递 加 法 器 类 似 ， 如 图 4-9 所 示 。 图 中 没有 给 出 控制 和 功能 选择 逻辑 ，8 个 独立 的 单个 位 ALU 按 
位 完成 2 字 节 输入 和 1 字 节 输出 的 加 法 。 这 个 操作 可 以 写 为 : 


R = ALU-op (A, B) 


| MM MB M0 
1 位 1 位 i 位 RAR 1 位 
We wm ww a 
RO 


图 4-9 并行 按 位 功能 链 示 意图 ， 其 中 并 行 的 单个 位 单元 并 行 地 组 成 了 1 字 节 位 宽 的 ALU 
一 些 4 位 的 ALU 操作 例子 在 下 表 中 给 出 : 






































1001 AND 1110 [ | 1000 按 位 与 
0011 AND 1010 | oo010 按 位 与 
1100 OR 0001 1101 按 位 或 
0001 OR 1001 1001 按 位 或 
0001 ADD 0001 0010 加 法 
0100 ADD 1000 1100 加 法 
0111 ADD 0001 1000 加 法 
NOT 1001 取 反 
0101 SUB 0001 减法 
0110 EOR | 1100 异 或 
从 第 2 章 的 内 容 我 们 知道 ， 加 法 和 减法 都 不 是 并 行 的 按 位 操作 ， 也 就 是 说 一 个 加 法 的 第 = 位 


结果 不 仅仅 依赖 于 每 一 个 输入 数据 的 第 n 位 ， 而 且 还 和 前 面 的 第 n -1 位 、 
位 有 关系 。 事 实 上 ， 

















第 n -2 位 、 
两 个 值 之 间 的 算术 操作 一 般 都 不 是 由 单个 位 并 行 的 方式 完成 的 ， 但 是 逻辑 操 





作 是 可 以 的 。 
知道 了 ALU 可 以 完成 哪些 类 型 的 功能 以 及 学 习 完 这 些 例子 ,现在 让 我 们 去 完成 一 个 ALU 底 
层 设计 来 探究 它 究竟 是 如 何 具体 操作 的 。 


第 4 章 ”处理 器 内 部 组 成 83 


4.2.2 ALU 设计 


图 4-10 是 ALU 模块 通用 符号 示意 图 ， 可 以 看 到 该 ALU 有 位 的 输入 操作 数 A 和 B， 还 有 
位 的 输出 操作 数 。 





图 4-10 常 使 用 模块 符号 来 表示 一 个 ALU, 该 ALU 拥有 位 的 输入 操作 数 
A 和 B、 功 能 选择 逻辑 ， 以 及 最 终 ”位 的 结果 输出 和 状态 标志 输出 


一 个 多 位 的 控制 接口 作为 功能 选择 用 来 选 通 ALU 的 具体 功能 。 状 态 信息 包含 了 结果 是 正 、 
负 、 等 于 零 ， 以 及 一 个 进位 或 者 一 个 溢出 。 在 一 些 处 理 器 中 ,这 些 值 都 简写 成 N、Z、0” 












































之 前 操作 下 之 后 加 
下 一 
R1 R2 RO 标志 
5 5 SUB RO, RI1, R2 0 
8 10 SUB RO, RI1, R2 一 2 
假设 寄存 器 是 8 位 的 ， 这 样 一 个 8 位 的 寄存 器 就 可 以 存储 0 ~255 的 无 符号 数 和 - 128 ~ 127 的 有 符号 数 
255 1 ADD RO, R1, R2 0 
127 1 ADD RO，RI，F2 | 128 (无 符号 数 )，-128 (有 符号 数 ) 
-1 1 ADD RO, RI1, R2 | 0 








注意 ; 对 于 二 进 制 的 8 位 数 ， 其 加 法 ， 比 如 01111111 +0000001 总 是 等 于 10000000。 问 题 是 
如 何 去 解 释 这 些 。 输 入 的 数据 是 十 进 制 的 127 和 1， 如 果 将 它们 解释 为 补 码 (有 符号 二 进 制 数 )， 
那么 输出 是 -128; 如 果 解 释 为 无 符号 二 进 制 数 ， 那 么 输出 是 +128。 没 有 更 进一步 的 信息 ， 只 有 
程序 员 才 会 知道 这 些 算术 运算 究竟 是 哪 种 类 型 的 运算 。 

溢出 标志 0 是 用 来 辅助 两 个 补 码 计算 的 。 对 于 ALU 来 说 ， 有 符号 数 和 无 符号 数 是 没有 
区 别 的 。 然 而 ， 当 一 个 涉及 补 码 的 计算 有 可 能 溢出 时 ，ALU 会 通过 写 和 人 溢出 标志 位 来 提示 
程序 员 该 运算 滋 出 。 如 果 程 序 员 是 在 处 理 无 符号 数 ， 那 么 可 以 忽略 这 个 标志 位 。 可 是 当 运 
算 涉及 两 个 补 码 时 ， 就 需要 注意 这 个 溢出 标志 了 ， 它 表示 计算 结果 太 大 而 无 法 在 规定 范围 
内 表示 。 

对 于 在 这 里 我 们 所 设计 的 ALU， 将 考虑 一 个 简单 的 进位 标志 ， 而 其 他 的 状态 标志 暂时 不 考 
虑 。 我 们 仅 涉 及 与 、 或 和 加 这 3 种 功能 。 该 ALU 是 个 多 位 并 行 ALU， 我 们 只 设计 一 位 加 法 器 
(因为 所 有 位 都 相同 ) 。 

最 终 的 设计 结果 ， 其 逻辑 图 如 图 4-11 所 示 。 框 4. 1 以 该 设计 为 基础 演示 了 如 何 计算 该 ALU 
的 最 大 传输 延迟 。 





日 ”往往 采用 “V” 来 表示 溢出 标志 ， 而 不 是 “0”， 这 可 能 是 担心 与 0 ( 零 ) 混淆 。 
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功能 选择 
AANDB 
A OR B 一 一 一 一 一 








图 4-11 典型 单个 位 ALU 的 内 部 逻辑 连接 示意 图 


探讨 ALU 的 传输 延迟 

让 我 们 探讨 一 下 为 什么 每 个 逻辑 门 会 产生 4ns 传输 延迟 : 这 段 时 间 是 指 从 一 个 新 的 数据 输入 到 产生 一 
个 新 的 稳定 输出 数据 的 时 间 。 

查看 图 4-11 中 的 ALU 图 示 来 寻找 最 坏 情况 下 的 最 长 路 径 ( 忽略 功能 选择 信号 )。 输 入 A 和 B 都 要 经 过 
两 个 区 域 的 门 ， 在 左上 部 的 区 域 中 只 有 两 级 门 ， 而 经 过 右 下 方 的 全 加 器 时 ， 在 到 达 输 出 前 其 输入 要 经 过 4 
个 门 ， 到 达 Co 要 经 过 3 个 门 。 

也 就 是 说 ， 进 位 信号 在 进位 输出 之 前 要 经 过 两 个 门 ， 在 结果 之 输出 之 前 要 经 过 3 个 门 。 这 个 过 程 可 以 
总 结 如 下 : 

A/B 到 Z., 4x4ns =16ns 

A/B 到 C,: 3 x4ns = 12ns 

Ci 到 Z: 3 x4ns =12ns 

Ci 到 C、: 2x4ns=8ns 

让 我 们 根据 这 些 数 字 来 寻找 一 个 4 位 ALU 在 执行 加 法 时 在 最 坏 情 况 下 的 传输 延 训 : 

MB BB 人 oBh 

中 
了 1 位 I 位 1 和 伍 I 不 
CALU la TALU| TALU 

Vz, Zz lz 刀 

这 是 A+B=Z， 因 为 这 是 一 个 加 法 ， 我 们 需要 计算 进位 传送 。 我 们 现在 可 以 追踪 最 坏 情 况 传 输 路 径 ， 
其 输入 在 ALU 的 右边 ， 通 过 进位 链 依次 传送 ， 到 达 ALU 最 高 有 效 位 。 因 为 从 任何 输入 到 ZL 输出 的 延迟 都 
不 过 是 进位 输出 的 延 衣 ,因此 最 坏 情 况 可 以 总 结 如 下 : 

Bit0: A/B 到 C 12ns 

Bit 1: Ci 到 Co8ns 

Bit 2: C, 到 C. 8ns 

Bit 3: Ci 到 Z 12ns 

总 共 : 40ns 

如 果 按 此 在 最 快 时 钟 频率 下 执行 ， 则 时 钟 周期 不 能 超过 40ns， 以 确保 对 于 每 个 输入 得 到 正确 的 最 终结 
果 。 当 然 ， 有 些 时 候 正 确 输 出 出 现 的 速度 要 比 上 面 快 ， 但 是 没有 一 个 简单 的 方法 能 事先 决定 结果 输出 的 快 
慢 。 因 此 我 们 必须 考 卡 最 长 传输 延迟 等 待 时 间 ， 而 此 时 时 钟 频率 为 1/40ns =25MHz。 

这 并 不 是 现代 处 理 器 最 快 的 时 钟 速度 。 其 实 可 以 采用 更 快 的 逻辑 门 ， 允 许 加 法 器 在 两 个 时 钟 周期 内 究 
成 ， 或 者 使 用 一 些 其 他 技巧 来 加 快 加 法 器 。 一 个 技巧 就 是 使 用 进位 预测 或 者 超前 单元 ( 见 2.4.3 节 )。 这 
两 种 方法 很 快 ， 但 是 当 加 法 器 的 操作 数位 数 很 大 时 要 占用 大 量 的 逻辑 。 











< 一 
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4.3 内 存 管理 单元 


就 CPU 而 言 ， 一 个 内 存 管理 单元 (MMU) 人 允许 物理 存储 器 以 另外 一 种 逻辑 组 合 方式 组 织 。 
它 是 存在 于 CPU 和 主 存储 器 之 间 的 硬件 ， 该 硬件 连接 在 存储 器 读 写 总 线 和 逻辑 存储 组 织 之 上 ， 
即 所 谓 的 虚拟 存储 。 它 是 1962 年 在 曼彻斯特 大 学 发 明 的 ， 有 时 候 也 称 之 为 分 页 存储 。 


4. 3.1 对 虚拟 存储 的 需求 


虚拟 存储 给 CPU 提供 了 一 个 很 大 的 存储 空间 ， 而 且 是 用 户 程序 可 见 的 。 现 实 中 ， 物 理 存储 
往往 很 小 ， 而 CPU 所 需要 的 虚拟 存储 内 容 必须 载 人 物理 存储 中 。 许 多 现在 的 操作 系统 ， 例 如 
Linux 就 是 建立 在 虚拟 存储 之 上 的 。 

虚拟 存储 允许 在 计算 机 上 运行 的 程序 规模 超过 可 用 的 RAM。 当 然 ， 这 个 功能 的 实现 要 依靠 
巧妙 的 编程 ， 并 且 要 外 接 一 个 更 大 的 存储 器 ， 比 如 硬盘 。 然 而 ,一 个 MMU 可 以 确保 程序 在 执行 
时 存储 器 看 上 去 是 连续 的 并 且 足 够 大 。 确 切 地 说 ，MMU 所 负责 的 是 计算 机 中 存放 程序 的 虚拟 存 
储 空 间 以 及 所 对 应 的 物理 RAM。 

提出 虚拟 存储 的 初 圳 是 为 了 解决 快速 而 又 昂贵 的 RAM 和 缓慢 而 又 廉价 的 硬盘 之 间 的 不 平 
衡 。 使 用 虚拟 存储 可 以 让 一 台 计 算 机 的 成 本 更 加 低廉 ， 这 人 台 拥 有 较 小 RAM 的 计算 机 可 以 表现 得 
和 拥有 更 多 存储 空间 的 高 成 本 计算 机 一 样 好 ， 唯 一 的 不 同 就 是 有 时 候 存储 器 的 访问 会 比较 慢 。 

当 MMU 工作 时 ， 与 纯 RAM 相 比 ， 平 均 存 储 器 访问 速度 将 降低 ， 这 是 因为 硬盘 的 速度 实在 
是 太 慢 了 ， 这 也 可 以 看 成 是 对 这 种 设计 的 折 中 。 

注意 ， 二 级 存储 不 一 定 非 得 是 硬盘 ， 它 可 以 是 任何 存储 介质 ， 只 要 可 以 提供 更 大 的 廉价 空间 
以 及 速度 比 主 RAM 慢 就 行 ， 包 括 较 慢 的 内 存 等 。 


4.3.2 ”MMU 操作 


在 现代 的 MMU 系统 中 ， 未 使 用 的 页 面 通常 存储 在 低速 而 又 廉价 的 硬盘 中 。 

图 4-12 是 一 个 MMU 连接 的 简单 例子 ， 在 这 里 ， 就 CPU 而 言 ， 该 系统 有 一 个 32 位 的 地 址 空 
间 〈 因 此 它 可 以 寻 址 2 个 内 存单 元 ， 或 者 说 4GiB 的 内 存 ) 。 然 而 该 例子 中 存储 器 的 位 宽 只 有 20 
位 〈 即 2 个 内 存单 元 ， 也 就 是 IMiB) 。 而 通过 MMU ，CPU 可 以 看 见 4GiB 的 空间 ， 而 不 是 1MiB。 






































\ 20 位 地 址 总 线 
”1132 位 地 址 总 线 











32 位 地 址 总 线 


图 4-12 一 个 MMU 用 来 连接 CPU 和 物理 RAM 及 硬盘 ， 数 据 总 线 将 这 些 部 件 直 接 相 连 ， 
MMU 用 来 调整 地 址 总 线 信 号 以 控制 存储 器 上 的 数据 读 写 
存储 器 划分 为 页 (page) 。 如 果 我 们 假设 每 个 页 面 为 256KiB 大 小 (这 是 个 典型 值 )， 那 么 主 
存 可 以 存放 4 个 页 面 ,但 是 CPU 可 以 访问 多 达 16 384 个 页 面 。 
MMU 将 新 的 页 面 载 人 RAM ， 并 且 将 暂 不 使 用 的 页 面 写 回 硬盘 (硬盘 足够 大 ) 。 如 果 CPU 要 
请 求 的 页 面 没有 加 载 到 RAM 上 ， 这 个 时 候 MMU 首先 需要 将 一 个 未 使 用 的 页 面 从 RAM 退回 到 硬 
盘 上 ， 然 后 再 将 CPU 请 求 的 页 面 加 载 到 RAM 上 。 
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要 知道 应 该 退回 哪个 页 面 ，MMU 需要 追踪 页 面 的 状态 ， 知 道 它们 哪些 正在 被 使 用 ， 哪 些 处 


于 空闲 状态 。 这 种 设计 思想 与 cache 类 似 〈( 见 4.4 节 )。 两 个 查找 表 用 来 记录 当前 前 RAM 和 硬盘 的 
存储 信息 ， 这 两 个 表 分 别 叫做 物理 RAM 占用 表 和 磁盘 存储 占用 表 。 


在 MMU 的 管理 下 ， 如 果 CPU 的 请 求 页 面 已 经 在 RAM 中 ， 那 么 我 们 称 之 为 命中 ; 如 果 没 有 
在 RAM 中 ， DZ 这 个 操作 如 图 4-3 所 示 ， 框 4.2 给 出 了 一 个 实例 。 


上 


ei ,3 
二 A = | 






> 











对 应 于 虚拟 存放 虚拟 地 址 所 要 
地 址 的 物理 读 取 页 面 的 硬盘 地 址 
存储 器 实际 

地 址 


图 4-13 MMU 的 简单 示意 图 ， 给 出 了 内 部 连接 的 关系 ， 以 及 缺失 和 命中 所 带 来 的 结果 


MMU 实例 


在 一 个 简单 的 CPU 中 ， 物 理 RAM 占用 表 如 下 图 所 示 。 在 这 里 ， 表 中 的 每 一 行 都 对 应 着 计算 机 内 的 一 
个 逻辑 页 地 址 。 前 面 的 参数 表示 当前 哪 一 个 页 面 载 入 了 RAM ， 载 入 了 RAM 中 的 哪个 位 置 。 











lz | Ox0100 | 
0lw | 0x0000 

注意 表 中 的 页 0 在 RAM 中 的 0 号 地 址 ， 而 页 1 在 0x0100 地 址 。 现 在 ， 我 们 知道 页 可 以 放置 在 RAM 的 
任何 地 方 ， 但 是 在 这 里 我 们 能 看 到 页 的 大 小 只 有 0x0100 (256) 个 单元 。 这 是 根据 8 位 的 地 址 总 线 ， 人 允许 
用 0~255 之 冯 的 数 表示 行 号 。 

我 们 也 可 以 看 到 总 共有 16 384 个 页 面 : 需要 14 位 才能 够 完全 表示 。 这 给 我 们 的 启示 是 CPU 上 可 以 支 
持 的 存储 器 宽度 为 14 +8 =22 位 。8 位 的 地 址 用 来 表示 行 号 ， 其 余 的 14 位 用 来 表示 页 号 。 以 这 22 位 来 表 
示 ， 我 们 将 拥有 22 = 4MiB 的 存储 空间 (假设 每 个 位 置 可 以 存放 一 个 字 节 )， 也 就 是 16 384 x 
256 =4 194 304。 

注意 : 从 这 个 例子 中 我 们 可 以 知道 在 计算 机 中 从 CPU 的 钦 辑 地 址 转换 为 行 号 和 页 号 的 规则 。 

当 一 个 CPU 从 存储 器 的 X 位 置 读 人 时 需要 经 过 以 下 步 又: 

1. CPU 将 地 址 X 写 人 地 址 总 线 中 ， 然 后 发 出 一 个 读 信和 号。 
.MMU 发 出 一 个 信号 让 CPU 等 待 一 段 时 间 ， 在 这 段 时 间 内 MMU 将 取 回 地 址 X 的 内 容 。 
3. MMU 将 地 址 X 分 成 页 号 与 该 页 中 的 行 号 。 
4. MMU 询问 物理 RAM 占用 表 。 在 这 一 步 中 有 命中 和 未 命中 两 种 情况 : 
。 如 果 请 求 的 页 面 已 经 命中 ， 则 MMU 输出 要 读 取 的 物理 RAM 地 址 。 物 理 RAM 地 址 加 上 
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页 面 内 的 行 号 成 为 最 终 的 物理 RAM 地 址 。 

。 如 果 请 求 的 页 面 缺 失 ， 则 将 页 号 传递 给 磁盘 存储 占用 表 。 在 该 表 中 查找 到 需要 读 取 的 页 ， 
然后 将 整个 页 面 加 载 进 RAM。 因 为 此 时 该 页 面 才 进入 RAM， 因 此 不 以 像 页 面 命中 时 的 
方式 将 地 址 X 的 内 容 送 回 给 CPU。 

。 注意 到 物理 RAM 在 大 小 上 是 不 受 限制 的 ， 则 必然 有 一 个 将 页 面 退回 给 硬盘 的 过 程 ， 这 个 
过 程 根据 追踪 页 面 的 使 用 情况 来 决定 返回 哪些 页 面 。 

5，MMU 输出 地 址 X 的 内 容 到 数据 总 线 上 ， 然 后 发 出 信号 通知 CPU 数据 已 经 准备 好 。 

很 明显 ， 在 页 面 缺 失 的 时 候 CPU 必须 等 待 一 段 较 长 的 时 间 来 从 存储 器 中 得 到 一 个 值 。 硬 盘 
可 能 比 RAM 要 慢 好 几 百 倍 ， 不 管 厂商 如 何 努 力 ， 查 找 的 过 程 相 对 来 说 还 是 比较 慢 。 我 们 将 这 个 
等 待 时 间 称 为 停滞 时 间 (stall time)。 

有 时 候 一 个 程序 员 并 不 想 等 竺 这么 一 段 停滞 时 间 。 在 这 种 情况 下 ， 一 些 对 速度 要 求 极 为 严 
格 的 变量 或 者 程序 一 般 都 存放 在 一 个 特殊 的 页 面 中 ， 该 页 面 被 固定 在 物理 RAM 上 。 事 实 上 ， 页 
面 属 性 允许 高 级 MMU 用 几 种 不 同 的 方式 来 处 理 页 面 。 现 代 操 作 系 统 将 中 断 服务 例 程 和 底层 调度 
代码 以 这 种 形式 固定 在 物理 RAM 上 。 

将 存储 页 面 放 在 硬盘 上 并 在 使 用 时 将 其 载 人 RAM 的 方法 ， 看 上 去 比较 符合 逻辑 ， 使 用 户 体 
验 到 的 存储 空间 比 实际 更 大 。 然 而 ， 实 施 这 种 方法 也 存在 很 多 困难 ， 当 要 载 人 一 个 新 页 面 时 哪个 
页 面 应 该 退回 ? 或 者 每 个 页 面 究竟 为 多 大 最 好 ? 这些 都 是 下 面 两 节 中 所 要 考虑 的 问题 。 


4. 3.3 退回 算法 


如 果 一 个 新 的 页 面 要 从 硬盘 加 载 进 物理 RAM， 除 非 RAM 刚好 有 空间 ， 否 则 必须 有 一 个 已 经 
载 人 内 容 的 页 退回 给 硬盘 ， 来 给 新 页 面 腾 出 空间 ， 并 同时 更 新 RAM 的 占用 表 。 

有 多 种 算法 用 来 解决 此 类 问题 ， 以 决定 应 该 将 哪个 页 面 退 回 给 硬盘 。 

。 LRU: 最 近 最 少 使 用 算法 ， 也 就 是 最 近 一 段 时 间 内 最 少 使 用 的 页 面 应 该 退回 。 

。 FIFO: 先 人 先 出 算法 ， 最 早 进入 的 页 面 应 该 退回 。 

这 两 个 算法 各 有 优 缺 点 。 微 软 的 Windows 操作 系统 用 户 在 配置 较 低 的 机 器 上 使 用 该 操作 系统 
时 对 磁盘 抖动 (disc thrashing) 问题 较为 熟悉 一 一 此 问题 表现 为 磁盘 看 上 去 是 一 直 在 运行 。 这 个 
问题 产生 的 原因 就 是 采用 了 一 个 很 坏 的 退回 算法 。 考 虑 一 个 很 大 的 循环 程序 ， 它 的 代码 分 别 存 
储 在 好 几 个 页 面 上 ， 在 这 种 情况 下 ,仅仅 是 从 循环 底部 返回 到 循环 的 顶部 就 可 能 会 引起 这 类 问 
题 ， 而 这 一 现象 是 存放 循环 顶部 的 页 面 已 经 被 退回 所 引起 的 。 

最 坏 的 情况 是 一 个 很 大 的 程序 ， 其 变量 分 布 在 多 个 页 面 上 。 如 果 一 个 小 程序 要 将 单个 数据 
分 别 赋 给 这 些 变量 ， 则 包含 这 些 变 量 的 页 面 也 许 会 仅 仪 为 一 个 变量 的 写 入 而 全 部 被 调 人 RAM。 
在 这 种 情况 下 ， 编 译 器 和 操作 系统 很 难 通过 育 集 存储 位 置 来 优化 程序 。 

这 个 退回 问题 和 cache 一 样 ， 面 临 着 相同 的 问题 ， 将 在 4. 4 节 中 讨论 。 


4.3.4 内 部 存储 碎片 和 片段 


如 果 一 个 完整 的 页 面 用 来 存放 一 点 点 的 内 容 ， 对 于 存储 器 来 说 就 会 非常 低 效 。 或 者 如 果 一 
个 程序 比 一 个 页 面 稍 大 一 点 儿 ， 以 至 于 仅仅 几 行 的 程序 不 得 不 存放 在 男 一 个 空 的 页 面 中 ， 这 样 
这 个 程序 就 占用 了 两 个 页 面 ,但 其 实 这 个 程序 更 近似 于 一 个 页 面 的 大 小 。 

这 两 种 情况 下 ， 计算机 快速 而 又 珍贵 的 RAM 必须 得 保存 这 些 没有 用 到 的 空间 。 而 且 ， 为 了 
载 人 这 些 零头 数据 ， 宛 长 而 又 慢 速 的 页 面 退回 和 载 人 新 页 面 的 过 程 必须 每 次 都 得 执行 。 我 们 称 
这 种 情况 为 内 部 存储 碎片 。 

解决 此 类 问题 的 一 种 方法 就 是 减 小 页 面 的 规模 。 然 而 ， 这 样 做 的 后 果 是 MMU 的 查找 表 变 得 
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很 大 ， 而 且 会 使 查找 过 程 本 身 成 为 MMU 操作 的 一 个 瓶颈 。 

最 新 的 解决 方法 是 引入 一 个 存储 器 片段 一 一 一 种 可 变 长 度 的 页 面 ， 而 且 这 种 页 面 可 随 着 程序 执 
行 的 需要 增 大 或 减 小 。 一 段 C 语言 程序 可 能 会 使 用 一 个 存储 片段 来 存放 本 地 函数 变量 ， 用 另 一 个 片 
段 存放 全 局 变量 ， 再 用 一 个 片段 存放 程序 堆栈 。 尽 管 C 程序 员 不 需要 关心 底层 细节 ， 但 潜在 的 程序 
操作 可 能 会 通过 片段 编号 和 片段 〈 行 ) 中 的 地 址 来 读 取 变 量 。 这 种 设计 叫做 二 维 存储 。 

存储 片段 的 一 个 优点 就 是 片段 之 间 不 会 彼此 扰乱 。 片 段 中 存储 的 程序 会 执行 ， 而 存储 的 数 
据 则 不 会 。 与 此 类 似 ， 如 果 一 个 程序 要 把 变量 写 到 另外 一 个 应 用 程序 的 片段 上 ， 也 是 不 允许 的 。 


4. 3.5 外 部 碎片 


片段 存储 方式 会 更 加 复杂 ， 其 原因 是 这 种 方式 需要 对 每 个 片段 的 大 小 和 内 容 进 行 追踪 ， 也 
就 使 得 各 种 占用 表 更 加 复杂 。 然 而 ， 由 于 避免 了 内 部 存储 碎片 的 麻烦 ， 这 种 方式 比 起 原始 的 页 管 
理 方法 更 加 高 效 。 

遗憾 的 是 ， 当 将 这 种 方式 用 于 解决 外 部 存储 碎片 时 会 有 点 儿 麻 烦 ， 如 图 4-14 所 示 。 从 左 到 右 
看 此 图 ， 一 个 原始 的 程序 载 人 进来 由 ， 占 用 了 4 个 存储 片段 。 在 他 中， 操作 系统 想 要 从 片段 5 中 读 
取 一 些 数据 ， 所 以 要 退回 一 个 片段 〈 本 例 中 选择 了 片段 3) 。 然 后 在 @@ 中 ， 片 段 5 被 加 载 进 来 。 在 @ 
中 ,片段 1 被 退回 到 硬盘 ， 而 在 @ 中 操作 系统 想 要 读 取 片段 3 并 将 其 重新 加 载 进来 。 





En 


图 4-14 图 解 外 部 碎片 : 在 内 存 片段 加 载 和 移 除 过 程 中 ， 经 过 以 上 5 个 步骤 之 后 ， 在 外 部 
存储 中 有 足够 的 总 存储 空间 ， 但 没有 足够 的 连续 存储 空间 用 于 加 载 seg3 
此 时 ， 对 于 片段 3 来 讲 很 明显 有 足够 的 空闲 RAM 空间 ， 但 是 没有 足够 的 连续 空闲 空间 。 有 
两 个 备 选 解决 方案 。 第 一 个 就 是 分 割 片段 3 为 两 部 分 ， 然 后 将 其 加 载 到 合适 的 地 方 。 第 二 个 就 是 
先 整理 存储 空间 ， 然 后 再 载 人 片段 3。 第 一 个 解决 方法 也 许 在 这 个 例子 里 是 可 行 的 ， 但 是 会 在 复 
杂 性 和 时 间 上 变 得 很 差 ， 因 为 这 个 片段 会 被 越 分 越 小 。 由 于 这 个 原因 ， 通 常 采用 第 二 个 方法 。 这 
种 整理 的 过 程 称 为 压缩 ， 并 且 在 载 人 片段 3 之 前 执行 ， 如 图 4-15 所 示 。 





图 4-15 “完成 图 4-14 中 的 存储 操作 ， 并 且 在 重新 载 入 seg3 之 前 压缩 空白 片段 ， 对 存储 内 容 进行 重组 
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很 明显 压缩 会 花费 一 些 时 间 ， 所 以 只 能 在 必需 时 使 用 该 方法 。 

片段 管理 算法 多 年 来 一 直 是 一 个 研究 热点 。 一 般 做 法 都 是 追踪 存储 器 的 使 用 和 未 使 用 的 
状况 ， 然 后 以 某 种 方式 高 效 地 压缩 空白 片段 。 有 一 些 简单 的 算法 ， 默 认 的 会 在 出 现 空隙 时 执 
行 压缩 。 


4. 3.6 ”改进 的 MMU 


4. 3.2 节 中 所 讲述 的 MMU 硬件 可 以 很 好 地 处 理 定 长 页 面 ， 但 是 对 于 可 变 长 度 的 片段 会 怎样 
呢 ? 要 知道 所 有 被 请 求 的 位 置 必须 在 物理 RAM 占用 表 中 查找 ， 因 此 其 速度 对 于 全 局 的 存储 器 读 
写 来 说 显得 至 关 重要 。 简 单 地 将 地 址 总 线 一 分 为 二 ， 将 后 面 的 一 些 比特 位 看 做 行 号 ， 前 面 的 一 些 
比特 位 看 做 页 号 ， 这 种 做 法 无 法 满足 片段 存储 的 需求 ， 因 为 在 这 里 每 个 页 面 的 大 小 都 不 一 致 。 这 
也 意味 着 占用 表 成 为 一 个 复杂 的 地 址 内 容 查找 表 (LUT) 。 

这 些 复杂 的 LUT 的 查找 时 间 与 其 规模 成 正比 ， 也 就 是 说 表 的 规模 越 大 ， 查 找 起 来 越 慢 。 问 
题 是 ， 为 了 减 小 外 部 存储 碎片 ， 系 统 需要 对 相对 较 小 的 片段 /页 面 进行 处 理 。 考 虑 UltraSPARC 开 
这 个 例子 ， 它 支持 2200GB 的 RAM， 但 是 其 页 面 规模 为 8SKB 大 ， 也 就 是 最 坏 情况 下 有 200 000 个 
页 面 。 存储 这 些 页 面 信息 的 LUT 会 变 得 非常 慢 ， 意 味 着 所 有 的 存储 读 写 ， 在 或 者 不 在 RAM 上 ， 
都 将 会 被 查找 过 程 极 大 延误 。 

解决 这 个 问题 的 方法 是 对 经 常 使 用 的 页 面 ， 引 入 一 种 较 小 而 又 快速 的 查找 表 ， 而 把 不 经 
使 用 的 页 面 存放 在 慢 速 的 查找 表 中 (或 者 RAM 中 )。 这 可 以 有 效 地 缓存 查找 表 的 内 容 ， 生 仙 玫 
转换 后 援 缓 冲 器 (Translation Look- aside Buffer，TLB)。 它 也 有 其 他 和 名字， 比如 转换 缓冲 器 
(Translation Buffer，TB)， 目 录 后 援 表 (Directory Look-aside Table，DLT) 或 者 地 址 转换 高 速 缓存 
( Address Translation Cache, > 2 4-16 8 
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图 4-16 ”MMU 使 用 转换 查找 辅助 缓存 TLB 进行 操作 ， 可 以 与 4. 13 没有 使 用 TLB 的 情况 进行 对 比 


在 本 书 的 写作 过 程 中 ，Ultra SPARC 荆 和 MIPS R3000 处 理 器 采用 了 这 种 技术 , 但 是 像 
ARM7 、x86 系列 以 及 数字 信号 处 理 器 并 没有 采用 。 它 通常 用 于 一 些 要 求 速 度 非常 快 的 工作 站 级 
处 理 器 中 。 


4.3.7 内 存 保护 


除了 能 够 对 进出 RAM 和 硬盘 上 的 数据 进行 交换 控制 外 ， 对 系统 设计 者 而 言 ，MMU 还 有 一 些 
其 他 的 好 处 。 事 实 上 ，RAM 越 来 越 廉价 ， 很 多 软件 已 经 不 把 节省 RAM 空间 看 做 一 个 设计 目标 
了 。 对 于 和 嵌 人 式 处 理 器 来 讲 也 是 同样 的 ， 尽 管 没 有 外 部 存储 器 〈 比 如 硬盘 ) ，MMU 依旧 存在 。 
问题 是 ， 为 什么 当 最 初 的 目标 已 经 渐渐 消失 的 时 候 ， 系 统 设计 者 还 依旧 坚持 使 用 MMU 呢 ? 

最 主要 的 原因 就 是 存储 保护 。 因 为 MMU 是 位 于 主 存储 器 和 处 理 器 之 间 的 ， 无 需 处 理 器 的 干 
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预 就 可 以 很 快 地 对 地 址 进行 扫描 和 更 改 。 遇 到 任何 问题 时 (比如 说 你 请 求 了 一 个 不 存在 的 地 址 ) 
MMU 可 以 向 处 理 器 发 出 预警 信号 。 在 ARM 中 ， 这 可 以 通过 称 为 数据 异常 (data abort) 的 中 断 信 
号 来 实现 。 或 者 当 取 一 条 不 存在 的 指令 时 ， 叫 做 取 指 异常 〈prefetch abort) 。 设 计 人 员 应 该 编写 
底层 异常 处 理 程 序 作 为 操作 系统 的 一 部 分 以 应 对 这 些 问 题 的 发 生 。 

从 软件 的 角度 来 看 待 此 问题 ， 系 统 程序 员 可 以 让 MMU 去 限制 对 存储 器 各 个 位 置 的 访问 ， 或 
者 标记 存储 器 区 域 哪些 已 分 配 哪些 未 分 配 。 编 译 后 的 代码 一 般 都 有 一 些 程序 区 域 和 数据 区 域 ， 
对 程序 区 域 通常 都 不 会 再 进行 写 人 操作 ， 但 是 数据 区 域 可 以 。 当 应 用 了 MMU 后 ， 如 果 一 段 程序 
区 域 的 指令 正在 执行 ,那么 存储 器 上 的 其 他 区 域 可 以 读 写 ， 而 不 会 向 正在 执行 的 存储 区 域 进 行 
写 人 。 

在 大 部 分 的 现代 操作 系统 中 ,用 户 代码 分 不 清 哪些 存储 器 位 置 是 可 写 的 哪些 是 不 可 写 的 ， 
它 只 能 朝 被 允许 的 地 方 写 。 这 也 就 防止 了 用 户 代码 写 人 错误 的 地 方 ， 进 而 导致 系统 裔 省 。 

非 操作 系统 的 代码 是 不 允许 对 操作 系统 控制 的 寄存 器 进行 写 人 的 ， 也 不 允许 对 其 他 程序 的 
数据 区 域 进行 覆盖 写 人 。 这 对 操作 系统 的 安全 性 和 可 靠 性 至 关 重 要 。 一 个 很 重要 的 例子 就 是 保 
护 0 地 址 。 一 些 经 常 犯 的 编程 错误 〈 见 框 4.3) ， 都 是 由 于 从 0 地 址 读 或 者 写 入 了 0 地 址 而 造成 
的 。 在 Linux 中 ， 如 果 一 个 编译 好 的 C 程序 试图 尝试 此 类 操作 ， 将 会 被 自动 退出 并 给 予 一 个 
“segmentation fault” 的 错误 提示 。 
追踪 C 程序 中 的 软件 错误 

一 般 C 编译 器 都 会 将 新 定义 的 变量 初始 化 为 0。 这 有 助 于 追踪 在 0 地 址 发 生 的 错误 : 


int *p; 

int x; 

x=*p; //since p is set to NULL (0}), a reaG from here will 
trigger a data abort 


如 果 没 有 足够 的 存储 空间 ， 用 malloc() 库 函 数 来 定义 一 块 存储 空间 时 就 会 失败 ， 并 且 返 回 NULL。 
void *ptr=malloc(16384); 

//we forgot to check the return address to see if malloc failed 

*ptr=20; 

//since ptr holds NULL (0), this will trigger a data abort 


类 似 地 ， 还 有 一 个 函数 在 运行 时 分 配 内 存 空间 。 
boot now () 
{ 
void {*theKkernel) (int zero, int arch); 


printf(l"Launching kernel\n"); 
theKernel (0, 9); 
} 


在 这 上段 代码 里 ， 函 数 theKemel() 在 第 一 行 中 被 定义 并 且 指 定 了 一 个 存储 器 地 址 ， 而 该 地 址 已 经 被 操作 
系统 内 核 所 使 用 。 然 而 ， 程 序 员 忘记 了 这 个 问题 。 在 默认 情况 下 ， 该 函数 将 被 分 配 到 0 地 址 ， 从 而 在 执行 
函数 theKernel() 时 会 跳 到 0 地址 上 ， 最 后 导致 一 个 预 取 异 常 (prefetch abort) 。 

注意 传递 给 函数 的 值 0 和 9 在 分 支 发 生前 是 存放 在 寄存 器 RO 和 R1 内 的 。 如 果 在 嵌入 式 Linux 系统 中 ， 
该 函数 依旧 执行 ， 那 么 系统 在 运行 时 就 会 使 用 当前 RO 和 R1 内 的 数据 ,不 会 抛 出 异常 错误 。 


4.4 cache 


高 速 缓存 存储 器 (cache) 有 着 非常 快 的 存 取 速度 ， 但 其 成 本 也 非常 高 ,通常 其 物理 位 置 更 
靠近 CPU。 如 果 成 本 不 是 问题 ,计算 机 设计 者 在 其 系统 中 就 只 采用 快速 存储 ， 但 这 样 一 来 对 大 众 
消费 者 来 说 ， 这 种 设计 就 会 变 得 非常 不 经 济 ， 当 然 超 级 计算 机 除外 。 
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cache 在 存储 架构 中 的 层次 在 3. 2. 2 节 中 有 相关 介绍 。 我 们 知道 ， 在 存储 架构 中 越 接近 顶部 
的 存储 器 速度 也 就 越 快 ， 但 成 本 也 越 高 ; 反之 亦 然 。 

cache 是 试图 提高 存储 器 的 平均 存 取 速度 ， 而 MMU 则 用 来 允许 计算 机 拥有 更 大 的 存储 空间 ， 
但 这 样 一 来 ， 势 必 会 降低 平均 存 取 速度 。 与 MMU 不 同 ，cache 是 不 受 任何 操作 系统 干涉 的 。 然 
而 ， 它 对 于 应 用 程序 员 来 说 是 透明 的 ， 这 一 点 就 像 MMU 一 样 。 

在 实际 系统 中 ,不 只 有 一 个 cache， 事实 上 有 很 多 不 同等 级 的 cache 以 不 同 的 速度 在 运行 。 
最 高 等 级 的 cache (最 靠近 CPU) 通常 以 片上 存储 的 形式 实现 ， 这 些 cache 通常 都 很 小 (例如 
ARM 和 80486 仅 有 8KB) ， 随 着 cache 的 等 级 降低 其 容量 逐渐 增加 。 框 4.4 以 Pentium Pro 处 理 器 
系统 作为 实例 很 好 地 阐述 了 cache 的 概念 。 

Intel Pentium Pro 的 cache 实例 

Intel 的 Pentium Pro 的 cache 设计 方法 在 当年 极 具 创 新 性 ， 在 CPU 的 芯片 内 拥有 256KB 的 cache， 不 过 
是 与 CPU 独立 开 来 。 遗 憾 的 是 ， 这 个 设计 ( 见 下 图 ) 后 来 发 现 不 是 很 稳定 ， 并 且 最 终 成 为 一 个 失败 的 产品 
系列 。 





在 该 图 中 ， 可 以 看 到 CPU 内 置 了 一 个 相对 快 而 小 的 一 级 8KB cache。 而 二 级 cache 与 CPU 在 同一 个 芯 
片 内 ， 但 是 速度 为 一 级 cache 的 一 半 ， 容 量 却 是 其 32 倍 。 三 级 cache 是 快速 SRAM， 位 于 主板 上 ， 2 级 
cache 要 慢 但 容量 为 二 级 cache 的 两 倍 。 最 后 ， 相 比 前 面 3 种 cache， 主 存 容 量 足 够 大 ， 但 也 很 慢 ， 它 是 一 种 
低 成 本 高 密度 的 存储 体 DRAM (dynamic RAM) ， 但 速度 要 慢 于 SRAM。 

注意 : 当今 的 cache 系统 与 此 仍然 十 分 类 似 ， 但 是 在 规模 上 大 了 许多 ,每 一 个 RAM 的 大 小 都 可 能 多 了 
几 个 零 ， 甚 至 出 现 了 更 高 级 别 。 主 存 已 经 从 SDRAM (Synchronous DRAM) 转变 为 RDRAM (Rambus) ， 或 
者 DDR (Double Data Rate， 双 速率 ) RAM 等 ( 见 7.6 节 )。 

将 cache 划分 开 来 ， 可 以 分 别 用 于 数据 和 指令 存储 ， 这 在 哈佛 体系 结构 ( 见 2.1.2 节 ) 的 处 
理 器 中 是 必要 的 ， 但 对 于 冯 ' 诺 依 曼 体 系 结构 来 说 也 是 很 有 益处 的 。 例 如 ， 上 有 具有 创新 性 的 DEC 
StrongARM 处 理 器 是 基于 ARM 的 ， 因 此 其 内 部 是 冯 : 诺 依 曼 体系 结构 ， 不 过 该 处 理 器 却 采用 了 
一 个 哈佛 体系 结构 的 cache。 这 样 可 以 让 两 个 cache 部 分 对 不 同 的 存储 行为 进行 优化 : 比如 说 程 
序 存储 存 取 偏向 于 顺序 操作 ， 而 数据 存储 操作 更 偏向 于 跳跃 式 读 写 ， 因 此 需要 不 同 的 cache 策略 
和 结构 来 适应 这 两 种 不 同类 型 的 操作 。 

与 虚拟 存储 类 似 ， 当 CPU 请 求 的 数据 不 在 cache 中 时 会 产生 cache 缺失 ， 并 且 不 得 不 从 速度 
较 慢 的 存储 器 中 调 人 数据 。 就 像 虚拟 存储 那样 ，cache 中 的 某 些 数据 必须 首先 退回 ， 然 后 进行 一 
些 压 缩 。 

请 求 的 位 置 可 以 在 cache 中 找到 的 比率 称 为 命中 率 ， 因 此 这 也 是 考察 cache 性 能 最 重要 的 指 
标 。 通 过 良好 的 cache 组 织 和 一 个 高 效 的 cache 算法 可 以 提高 命中 率 。 

有 很 多 不 同形 式 的 cache 组 织 方式 ， 这 些 方式 对 cache 的 成 本 和 性 能 表现 有 极 大 的 影响 。 其 
中 有 3 个 是 最 常见 的 : 直接 相 联 cache、 组 相 联 cache 和 全 相 联 cache， 接 下 来 将 对 这 3 种 方式 进 


行 介绍 。 


注意 在 现代 CPU 中 ，cache 实际 上 是 整 块 地 读 取 内 存 ， 可 能 是 一 次 读 取 32 字 节 或 者 64 字 节 ， 
而 不 是 只 读 取 一 个 存储 单元 。 为 了 简单 起 见 ， 本 节 给 出 的 例子 中 的 每 个 cache 块 只 包含 一 个 内 
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存 地 址 。 在 更 加 现实 的 存储 块 情况 下 ，cache 中 的 标记 位 地 址 是 块 地 址 的 起 始 ，cache 控制 器 
知道 连续 m 个 存储 器 位 置 必须 以 一 个 缓存 行 (cache line) 读 人 。 这 种 方式 的 好 处 是 在 像 
SDRAM 或 者 RDRAM 这 样 的 现代 存储 器 中 ， 对 连续 位 置 的 读 写 比 对 多 个 单个 地 址 的 读 写 要 高 
效 很 多 。 


4.4.1 直接 相 联 cache 


这 个 设计 方案 中 ， 每 个 cache 位 置 可 以 保存 一 行 来 自主 存储 器 的 数据 。 每 个 主 存储 器 的 地 址 
对 应 一 个 固定 的 cache 位 置 ， 由 于 cache 的 容量 远 小 于 存储 器 ， 因 此 每 个 cache 位 置 要 对 应 很 多 存 
储 器 位 置 。 

因此 ， 当 要 求 直 接 相 联 cache 返回 一 个 特定 存储 器 地 址 上 的 内 容 时 ， 只 需要 查看 cache 位 置 
上 的 标签 的 正确 性 。cache 位 置 取 自 存储 器 地 址 的 低 n 位 (假设 cache 和 存储 器 的 位 宽 相 等 ) ， 比 
如 32 位 的 例子 ， 如 下 图 所 示 : 

bit 32 bitn bit 0 
标签 -下 行 | 

将 cache 位 置 分 为 标签 和 行 的 做 法 类 似 于 在 MMU 中 的 页 与 行 的 划分 法 〈 见 4.3 节 )。 直 接 相 
联 cache 的 位 置 数 等 于 行 数 。 存 储 器 上 的 每 个 页 均 有 相同 的 行 数 ， 所 以 如 果 从 一 个 页 中 读 取 一 个 
数据 ， 它 将 按照 自己 所 属 的 行 来 载 人 具体 的 cache 中 。 

每 个 cache 位 置 实际 上 包含 了 一 些 域 : 一 个 已 用 /清空 〈dirty/clean) 标志 位 ， 用 来 标识 
cache 位 置 上 的 数据 是 否 更 新 或 者 有 没有 存 进 主 存 里 ; 一 个 有 效 位 用 来 标识 该 cache 位 置 是 否 被 
占用 ; 一 个 标签 位 用 来 标识 哪 一 个 可 能 的 存储 器 页 已 经 实际 载 人 cache 中 ; 在 这 些 标志 位 之 后 ， 
cache 存放 了 从 RAM 中 读 取 的 数据 。 

所 以 直接 相 联 cache 算法 应 该 是 : 

。 CPU 从 存储 器 中 读 取 一 一 将 读 取 地 址 分 为 TAG 和 LINE 两 部 分 。 检 查 cache 的 LINE 位 

置 ， 并 查看 标签 位 是 否 与 CPU 要 求 的 一 致 。 如 果 一 致 ， 则 从 cache 中 读 取 数据 。 如 果 标 
签 位 不 匹配 ， 则 查看 已 用 标志 位 。 如 果 这 个 已 用 标志 位 设 定 为 有 效 ， 则 首先 回 退 当 前 
cache 位 置 内 的 数据 到 主 存 上 ， 然 后 读 取 相应 地 址 的 数据 到 当前 位 置 cache 上 。 清 空 已 用 
标志 位 ， 设置 有 效 标 识 ， 并 且 更 新 TAG 位 。 

。 CPU 向 存储 器 写 入 一 一 有 以 下 几 种 情形 : 

- 直 写 (write through) : 将 数据 写 人 cache 行 中 并 且 也 写 人 主 存 中 。 

- 写 回 (write back) : 不 写 回 主 存 (这 种 情况 仅 发 生 在 下 一 个 时 间 另 外 一 个 存储 器 位 置 
要 使 用 该 cache 位 置 的 时 候 ) ， 只 存在 cache 上 。 

- 延迟 写 (write deferred) : 允许 写 到 cache 上 ， 然 后 经 过 一 定时 间 后 写 回 主 存 (假设 有 
这 样 一 个 时 间 ， 并 且 CPU 没有 在 等 待 ) 。 

cache 数据 一 旦 写 回 到 主 存 ， 就 要 清空 已 用 标签 ， 以 标识 现在 的 主 存 数 据 和 cache 数据 是 一 
致 的 ， 这 叫做 cache- memory 一 致 性 。 

在 直 写 方式 中 ， 如 果 将 要 向 其 中 写 数据 的 存储 位 置 不 在 cache 中 ， 则 可 以 直接 向 存储 器 写 人 
数据 ， 从 而 跳 过 cache， 这 种 方式 电 做 无 写 分 配 的 直 写 (write through with no write allocate ，WT- 
NA) 。 而 数据 总 是 存储 在 cache 中 ， 不 管 这 个 数据 是 否 写 到 了 存储 器 中 ， 这 种 方式 叫做 有 写 分 配 
的 直 写 (write through with write allocate, WTWA)。 

直接 相 联 cache 的 主要 优点 就 是 查找 速度 快 。 对 于 每 一 个 主 存储 器 的 位 置 来 说 ， 只 有 一 个 
cache 位 置 与 之 对 应 。 然 而 ， 这 个 优势 也 是 个 问题 ， 每 个 cache 行 要 对 应 很 多 真实 的 物理 存储 位 
置 。 框 4.5 给 出 了 一 个 直接 相 联 cache 存 取 的 例子 。 
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直接 相 联 cache 实例 
下 图 给 出 了 在 一 个 简单 微型 计算 机 系统 中 ,直接 相 联 cache 当前 正在 使 用 的 情况 。 




















行 秦 论 入 主 
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这 个 cache 有 1024 行 (对 应 于 10 位 的 地 址 总 线 )， 每 行 有 两 个 标志 位 、 一 个 标签 位 和 实际 缓存 的 数 
据 。 笑 脸 符号 表示 未 写 (clean) ， 悲 伤 符号 表示 已 写 〈dirty ) 。 

在 系统 的 开始 阶段 ， 所 有 的 cache 条 目 都 被 清空 而 且 是 无 效 的 ， 像 第 1 行 。 这 可 能 意味 着 第 1 行 在 系统 
重 置 后 就 没有 使 用 过 。 

第 0 行 是 有 效 的 ， 所 以 它 肯 定 缓存 了 实际 数据 。 但 该 行 是 已 用 状态 ， 说 明 该 数据 最 近 肯 定 改 变 过 ， 并 
且 新 数据 还 没有 写 入 RAM 中 。 其 标签 位 为 0， 则 第 0 行 必 然 存放 的 是 CPU 的 0 地 址 数据 ， 而 且 最 后 的 数据 
为 32 位 的 Ox1A23 2351。 

由 于 cache 中 总 共有 1024 行 ， 因 此 第 0 行 还 可 以 存放 0x400 (1024)，0x800，0xC00 这 些 地 址 的 数据 ， 
但 是 由 于 其 标签 位 为 0， 所 以 必然 代表 的 是 0 地 址 。 

第 2 行 也 有 效 但 是 清空 的 ， 意 味 着 其 存储 的 数据 与 RAM 中 所 存放 的 一 致 。 它 所 对 应 的 页 (标签 ) 位 
置 为 0x100。 因 为 行 数 表 示 了 低 10 位 的 地 址 总 线 ， 因 而 所 缓存 的 数据 在 RAM 中 的 地 址 为 (0x100 << 10) + 
2 =0x40002， 且 该 数据 为 0x51。 

最 后 ， 第 1023 行 有 效 但 已 用 ， 意 味 着 该 位 置 的 数据 已 经 改变 。 其 标签 位 为 0， 所 以 读 取 的 数据 在 RAM 
中 的 地 址 为 (0x0 << 10) +1023 =0x003FF。 


4.4.2 组 相 联 cache 


直接 相 联 cache 的 问题 在 于 物理 地 址 为 0、1024、2048 、3072… 的 内 存单 元 都 链接 在 同一 个 
cache 行 上 。 如 果 我 们 的 软件 要 使 用 0、1024 、2048 这 些 地 址 存放 数据 ， 那 么 在 同一 时 刻 只 有 一 
个 数据 能 够 进入 cache。 

为 了 解决 类 似 的 问题 ， 一 种 n 路 的 组 相 联 cache ( set-associative cache) 允许 nn 个 cache 行 和 
存储 器 行 相关 联 。 其 本 质 就 是 n 个 直接 相 联 cache 以 并 行 的 方式 操作 。 

在 一 个 2 路 的 组 相 联 cache 中 ， 可 以 有 两 个 cache 位 置 与 某 个 存储 器 地 址 相 联 〈 详 见 
框 4.6) 。 从 这 种 方式 的 cache 中 读 取 数 据 ， 其 过 程 仍 非常 快 ， 等 同 于 连接 了 两 个 查找 表 。 
这 项 技术 已 经 被 广泛 采用 ， 例 如 最 早 的 DEC StrongARM 处 理 器 ， 包 含 了 一 个 32 路 的 组 相 联 
cache 。 

就 像 所 有 的 cache 一 样 ， 一 个 新 的 位 置 在 载 人 数据 之 前 必须 要 退回 之 前 的 数据 。 问 题 是 , n 
路 的 cache 如 何 退 回 ? 这 与 MMU 的 例子 中 的 问题 相似 ， 在 4.4.4 节 中 也 将 介绍 相关 的 退回 算法 。 
组 相 联 cache 实例 

下 图 显示 了 在 一 个 微型 计算 机 系统 中 2 路 组 相 联 cache 正在 使 用 的 情况 。 
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这 个 cache 有 着 与 框 4.5 中 的 直接 cache 极其 类 似 的 结构 ， 但 是 每 一 行 有 两 个 条 目 〈 因 为 是 2 路 组 相 
联 ) 。 它 有 1024 行 〈 对 应 于 地 址 总 线 的 10 位) 。 笑 验 符号 表示 清空 ， 悲 伤 符号 表示 已 用 。 

在 系统 的 开始 阶段 ， 所 有 的 cache 条 目 都 是 未 写 而 且 是 无 效 的 ， 像 第 1 行 的 左 半 边 和 第 2 行 的 右 半 边 。 
这 可 能 意味 着 这 些 条 目 在 系统 重 置 后 就 没有 使 用 过 。 

直接 相 联 cache 和 组 相 联 cache 方式 的 不 同 之 处 可 以 从 第 0 行 看 出 。 在 第 0 行 的 左边 其 内 容 与 小 4. 工 节 
中 的 例子 完全 一 样 。 但 是 在 这 个 例子 中 ， 相 同 的 行 还 可 以 同时 从 存储 器 的 第 4 页 读 取 数 据 ， 也 就 是 右 半 边 
这 个 条 目 ， 其 标志 位 显示 为 已 用 且 有 效 ， 这 意味 着 这 个 数据 已 经 改变 并 且 没 有 写 回 到 RAM 中 。 它 存放 的 
32 位 数据 为 0x4A93 B35F， 即 存储 地 址 (0x004 <<10) +0 =0x1000 的 最 近 有 效 内 容 。 


4.4.3 全 相 联 cache 


如 果 我 们 的 软件 经 常 使 用 0、1024 和 2048 这 3 个 地 址 ， 而 不 用 1、1025 和 2049， 那么 直接 
相 联 cache 与 组 相 联 cache 的 第 0 行将 会 一 直 进行 输入 输出 交换 ， 满 负荷 运转 。 相 反 ，cache 的 第 “ 
1 行将 会 空置 。 

全 相 联 cache (full-associative cache) 解决 了 该 问题 ， 因 为 这 种 方法 可 以 允许 任何 的 存储 器 位 
置 映射 到 任意 的 cache 位 置 上 。 在 这 种 情况 下 ， 标 签 位 就 包含 了 全 部 的 存储 器 地 址 信息 。 

问题 是 ， 当 cache 从 存储 器 中 读 取 数据 时 ， 都 必须 检查 cache 中 的 每 个 标签 。 换 句 话说， 对 
cache 中 的 每 一 行 都 要 进行 检查 。 在 直接 相 联 cache 中 ， 只 需要 检查 一 个 标签 ， 而 在 ”路 组 相 联 
cache 中 也 只 需要 检查 n 个 标签 。 

所 以 ,尽管 全 相 联 cache 方法 可 以 获得 很 好 的 命中 /缺失 比率 ， 但 是 这 种 方法 会 由 于 其 自身 
有 很 多 检查 操作 而 导致 比较 慢 。 这 个 问题 类 似 于 MMU 中 的 物理 RAM 占用 表 问 题 。 


4.4.4 局 部 性 原则 


被 加 载 或 印 载 的 变量 存储 模式 极其 依赖 于 高 速 缓存 的 使 用 情况 。 但 在 一 般 情 况 下 ， 在 运行 
一 些 通用 程序 的 计算 机 中 ， 有 两 个 良 定义 的 特征 : 数据 存储 器 和 程序 存储 器 。 这 就 引出 了 计算 机 
体系 结构 中 一 个 众所周知 的 术语 : 局 部 性 原理 (principle of locality) 。 实 际 上 局 部 性 原则 有 两 个 : 
第 一 个 是 空间 局 部 性 (spatial locality) ， 它 涉及 地 址 的 聚集 性 ; 第 二 个 是 时 间 局 部 性 (temporal 
locality) ， 它 涉及 时 间 的 聚集 性 。 

通过 一 种 可 视 化 方法 就 可 以 发 现 这 个 原则 ， 查 看 计算 机 内 存 并 给 过 去 几 千 个 时 钟 周期 里 使 用 过 
的 数据 变量 着 色 。 如 果 在 操作 过 程 中 冻结 计算 机 ， 你 可 能 发 现 一 些 已 着 色 的 内 存 地 址 集群 以 及 大 面 
积 目前 未 使 用 的 内 存 。 几 秒 钟 后 再 次 冻结 ， 你 会 发 现 另 一 些 活 路 着 的 不 同 的 内 存 集群 。 一 个 好 的 
cache 操作 应 该 尝试 把 尽 可 能 多 的 着 色 集 群 放 到 快速 缓存 中 ， 从 而 加 快 程序 的 平均 执行 时 间 。 

如 果 把 可 视 化 方法 应 用 到 程序 存储 器 ， 你 会 发 现 一 些 连续 的 着 色 内 存 块 像 丝 带 一 样 通过 内 
存 流 消 。 
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空间 局 部 性 原则 是 指 在 任何 一 个 时 刻 ， 活 牙 的 项 目 可 能 在 内 存 地 址 上 是 彼此 相 邻 的 。 对 程 
序 存储 器 来 说 这 是 由 于 程序 指令 的 连续 性 ， 而 对 数据 存储 器 来 说 这 是 由 于 编译 器 会 把 定义 的 变 
量 集群 到 相同 的 内 存 段 中 。 

时 间 局 部 性 原则 是 指 一 个 近期 被 访问 过 的 项 目 相 比 于 其 他 位 置 的 项 目 更 可 能 被 再 次 访问 。 
对 程序 存储 器 来 说 可 以 通过 循环 结构 来 解释 ， 而 对 数据 存储 器 则 可 以 通过 整个 程序 中 重复 使 用 
一 些 变量 来 解释 。 

图 4-17 举例 说 明了 两 个 局 部 性 原则 ， 图 中 演示 了 3 个 内 存 页， 给 出 了 它们 在 程序 运行 过 程 
中 的 几 个 瞬间 快照 。 内 存 使 用 的 密度 通过 页 中 不 同 深浅 的 矩形 块 显示 出 来 。 内 存 地 址 通过 在 矩 
形 页 中 的 位 置 表示 出 来 。 可 以 看 出 随 着 时 间 的 推移 ， 时 间 局 部 性 原则 导致 不 同 内 存 集群 之 间 的 
逐渐 移动 。 空 间 局 部 性 意味 着 内 存 的 访问 往往 集中 在 一 起 。 请 注意 ， 跨 多 个 页 存储 的 变量 (或 
者 堆栈 项 目 ) 在 任何 时 刻 都 可 能 变 得 有 效 。 这 是 因为 不 同类 型 的 项 目 可 以 停 驻 在 不 同 的 页 面 
(特别 是 ， 数 据 项 和 程序 项 不 可 能 共享 一 个 内 存 页 ) 。 

使 用 的 内 存 块 7 2 
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图 4-17 空间 局 部 性 和 时 间 局 部 性 原理 的 一 个 实例 ， 显 示 了 内 存 使 用 (用 在 几 个 内 存 页 上 涂 黑 的 内 存 块 
来 表示 ) 是 如 何 随 时 间 变 化 的 。 时 间 局 部 性 : 前 一 个 时 刻 有 效 的 内 存 集群 往往 在 下 一 个 时 刻 还 
要 使 用 , 但 与 更 晚 些 时 间 里 用 到 的 集群 却 不 同 。 空 间 局 部 性 : 有 效 内 存 集群 驻 留 在 每 一 页 的 特 
定 区 域 中 ， 而 不 是 均匀 分 散 的 。 页 中 任何 时 刻 使 用 的 块 的 数目 标记 在 图 的 上 方 
局 部 性 的 含义 是 ， 在 一 般 情 况 下 大 致 预测 将 来 可 能 访问 的 内 存 位 置 是 有 可 能 的 。 一 个 好 的 
高 速 缓存 的 功能 就 是 利用 这 个 信息 来 缓存 这 些 位 置 ， 从 而 增加 平均 访问 速度 。 


4. 4. 5 cache 替换 算法 


替换 算法 用 于 在 运行 的 cache 中 记录 位 置 。 当 请 求 一 个 新 位 置 而 高 速 缓存 中 适当 的 部 分 已 经 
满 了 时 ， 替 换算 法 便 会 发 挥 作用 ， 这 意味 着 cache 中 一 些 位 置 要 被 新 的 位 置 蔡 换 。 如 果 cache 中 
适当 的 位 置 被 标记 为 “dirty”( 换 句 话说 ， 它 已 经 被 重 写 但 还 没有 被 保存 回 RAM) ， 那 么 必须 
先 将 数据 保存 到 RAM。 相 比 之 下 ,“clean” 的 缓存 条 目 可 以 马上 更 换 ， 因 为 只 需 让 它们 存放 
与 RAM 中 的 缓存 位 置 相 同 的 值 即 可 。 当 然 ， 谁 成 为 适当 的 位 置 是 缓存 组 织 的 功能 : 全 相 联 
cache 将 不 限制 位 置 ， 但 直接 相 联 cache 或 组 相 联 cache 会 限制 一 个 内 存 地 址 可 以 被 缓存 在 娜 一 
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行 ( 或 哪儿 行 )。 

然而 ， 仍 然 存在 一 个 问题 ， 如 果 刚 被 送 回 RAM 的 某 一 行 在 很 短 的 时 间 后 又 需要 被 访问 ， 就 
不 得 不 再 把 它 装载 回去 。 而 这 可 能 需要 更 多 的 数据 退回 操作 ， 是 一 个 耗 时 的 过 程 。 

一 个 好 的 cache 能 最 大 限度 地 减少 加 载 和 印 载 的 次 数 ， 或 者 以 另 一 种 方式 ， 最 大 限度 地 提高 


命中 率 。 





要 做 到 这 一 点 ， 一 种 方式 是 确保 正确 的 数据 (定义 为 最 不 常用 数据 ) 被 收回 ， 而 这 正 


是 cache 替换 算法 的 工作 。 有 几 个 值得 一 提 的 常用 算法 : 


LRU (最 近 最 少 使 用 ) ”其 规模 复杂 性 与 cache 大 小 相关 ， 因 为 它 需要 维持 每 个 条 目的 使 
用 顺序 的 清单 。 下 一 个 要 收回 的 条 目 就 是 清单 底部 的 那 一 项 。LRU 在 大 多 数 情况 下 可 以 
合理 地 执行 。 

FIFO (先进 先 出 ) ”替换 cache 中 最 先进 来 的 位 置 。 这 在 硬件 上 很 容易 实现 ， 因 为 每 个 
加 载 行 标识 符 只 进入 一 个 FIFO， 当 需要 收回 某 一 项 时 ，FIFO 输出 的 标识 符 就 是 下 一 个 
被 薪 换 项 。 在 某 些 内 存 位 置 重 复 使 用 很 长 时 间 而 另外 一 些 内 存 位 置 仅 仅 使 用 很 得 时 间 的 
情况 下 ，FIFO 不 如 LRU 有效。 

LFU (最 不 常 使 用 ) ”替换 最 不 常用 的 位 置 。 这 很 难 实现 ， 因 为 每 个 cache 条 上 日 需要 有 计 
数 器 ， 而 且 需 要 有 比较 所 有 计数 器 的 电路 。 然 而 ， 在 大 多 数 情 况 下 ，LFU 性 能 非常 好 。 
随机 算法 ”用 硬件 实现 很 容易 ， 只 需 挑 一 个 ( 伪 ) 随机 位 置 。 令 人 惊讶 的 是 ， 这 种 技术 
实际 上 执行 得 相当 好 。 

循环 算法 采取 轮流 收回 缓存 行 的 方法 。 这 种 算法 在 n 路 组 相 联 cache 中 很 常见 ，n 路 的 
每 一 路 轮流 被 收回 。 它 的 主要 优点 在 于 便于 实施 ， 但 对 较 小 的 cache 性 能 很 差 。 


记 住 ，cache 一 定 要 快 ， 因 为 这 些 算法 需要 记录 哪些 行 已 被 访问 以 及 当 需 要 替换 时 替换 哪 一 
行 ， 它 们 需要 以 一 种 不 会 限制 cache 性 能 的 方式 实现 ， 如 果 把 缓存 的 速度 减 慢 得 和 主 存储 器 一 
样 ， 那么 再 完美 的 算法 也 是 没有 用 的 。 这 些 算法 需要 用 快速 的 硬件 而 不 是 软件 实现 。 因 此 ， 实 现 
的 复杂 性 是 一 个 问题 。 

框 4.7 和 框 4.8 列举 了 一 些 cache 替换 算法 如 何 操 作 读 写 序 列 的 例子 。 
cache 替换 算法 示例 1 


问 : 


计算 机 系统 cache 和 主 存储 器 状态 如 下 面 右 图 所 示 。 复 位 时 ，cache 完全 是 空 的， 但 主 存储 器 位 置 





































































































填 满 了 aa、bb 、ec 直到 ii， 每 个 缓存 行 可 以 缓存 一 个 内 存 地 址 。 8[ i 
如 果 采 用 写 回 系统 的 LRU 替换 算法 ， 而 且 cache 是 全 相 联 的 (从 底 往 上 EE 下 
填 ) ， 追 踪 需 要 采取 的 行为 ， 画 出 经 过 下 面 的 操作 序列 后 cache 的 最 终 状 态 : 6 
(1) 从 地 址 0 读 ; gg 
(2) 从 地 址 工读 ; 5| 企 
(3) 从 地 址 0 读 ; cache 4| ee 
(4) 从 地 址 2 读 ; 3 31 gq 
(5) 从 地 址 3 读 ， :| 
(6) 从 地 址 4 读 ; | 
(7) 把 99 写 入 地 址 5。. ! bb 
答 : 我 们 将 研究 每 一 步 操作 ， 并 画 出 在 步骤 (5) 、(6)、(7) 后 cache 填 0 9| aa 
满 后 的 状态 图 ， 如 下 图 所 示 : 标签 数据 存储 器 
步骤 (5) 后 的 cache 步骤 〈6) 后 的 cache 步骤 07) 后 的 cache 
于 313 dd 3|3 dd 如 3| 3 dd 
2| 2 CC 2| 2 CC 2| 2 CC 
1| 1 bb ] 1| 4 ee 1| 4 ee 
0| ol aa ol0| aa | 0| 5| 99 






































标签 ”数据 标签 数据 标签 ”数据 
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首先 ， 因 为 cache 是 空 的 ， 所 以 步骤 (1) 缺失 。 因 此 从 内 存 中 检索 到 值 aa 并 放置 在 cache 第 0 行 上 ， 
标签 为 0 (因为 全 相 联 cache 标签 是 完整 的 内 存 地 址 ) 。 步 又 (2) 同样 缺失 ,这 将 导致 bb 被 放置 在 第 1 
行 。 步 骤 〈3) 命中 一 一 地 址 0 已 经 在 第 0 行 中 了 ， 所 以 不 需要 采取 进一步 行动 。 步 骤 (4) 缺失 ， 导 致 cc 
被 写 入 第 2 行 。 步 又 (5) 同样 缺失 ， 这 将 导致 在 cache 第 3 行 填 入 dd。 

此 时 cache 已 满 ， 所 以 增加 任何 新 的 条 目 都 会 要 求 收 回 某 一 条 目 。 由 于 我 们 使 用 LRU (最 近 最 少 使 
用 ) ， 因 此 需要 记录 最 后 一 次 访问 每 个 条 目的 时 间 。 步 又 (6) 缺失 ， 所 以 内 存 中 位 置 4 的 值 需要 加 载 到 
cache 中 。 往 回 看 ， 最 近 最 少 使 用 的 是 步骤 (2) 中 的 第 工行 而 不 是 步 票 (1) 中 的 第 0 行 ， 因 为 加 载 了 第 1 
行 后 我 们 在 步骤 (3) 又 访问 了 第 0 行 。 所 以 ， 步骤 (6) 把 内 存 地 址 4 中 的 数据 ee 存 到 第 1 行 。 

最 后 ， 步 又 (7) 涉及 从 CPU 写 入 内 存 。 由 于 我 们 有 一 个 写 回 系统 ， 这 个 值 必 须 同 时 放 到 cache 和 主 
存储 器 中 。 再 次 应 用 LRU 算法 ， 我 们 可 以 看 到 第 0 行 是 这 次 最 近 最 不 常用 的 位 置 ， 因 此 ， 它 要 被 新 的 数据 
取代 〈 它 没有 被 退回 ， 因 为 从 它 被 载 入 起 我 们 还 没有 对 它 进 行 写 入 操作 ) 。 
cache 替换 算法 示例 2 

问 : 计算 机 系统 的 cache 和 主 存储 器 如 下 面 右 图 所 示 。 

复位 时 ，cache 是 空 的 ， 但 主 存储 器 位 置 已 填 满 了 aa、bb、ec 直到 ii。 每 个 cache 行 可 以 容纳 两 个 内 存 
地 址 ( 换 句 话说 ， 它 是 一 个 2 路 组 相 联 cache)。 如 果 采 用 写 回 系 
































统 的 FIFO 算法 ， 追 跑 需 要 采取 的 行动 ， 画 出 经 过 下 面 操 作 的 序列 昌 ,上 

后 cache 的 最 终 状态 : 
(1) 从 地 址 0 读 ; 0 
(2) 从 地 址 工读 ; 5| ff 
(3) 从 地 址 0 读 ; 2 路 组 相 联 cache 4| ee 
(4) 从 地 址 2 读 ; ww 3| dd 
(5) 从 地 址 3 读 ; 2 2| cc 
(6) 从 地 址 4 读 ; | i 
(7) 把 99 写 到 地 址 5; 呈 ,|— 
(8) 把 88 写 到 地 址 8。 


























元 示 存储 器 
答 : 首先 ， 确 定 标签 范围 是 很 重要 的 。 由 于 cache 有 四 行 ， 标签 数据 标签 数据 


内 存 地 址 10 ~3| 停 驻 在 标签 区 域 0，|4 ~7| 在 标签 区 域 1，|8 ~11} 在 标签 区 域 2， 以 此 类 推 。 内 存 地 址 
0、4 和 8 映射 到 第 0 行 ， 地 址 1、5、9 映射 到 第 1 行 ， 以 此 类 推 。 

现在 研究 每 一 步 操作 。 步 又 (1) 引起 缺失 并 导致 aa 被 加 载 到 cache 第 0 行 。 为 了 增加 可 读 性 ， 我 们 
将 先 填 左 半边 。 步 骤 (2) 同样 缺失 ， 填 入 第 工行。 步骤 (3) 命中 ,导致 cache 第 0 行 左边 的 值 被 读 出 。 
步骤 (4) 和 步骤 (5) 也 是 缺失 ， 将 cc 和 dd 分 别 填 入 第 2 行 和 第 3 行 。 此 时 ，cache 左边 的 每 一 行 都 填 满 
了 。 所 以 步骤 (6) 从 地 址 4 读 缺 失 将 导致 ee 被 放 到 cache 中 。 地 址 4 映射 到 cache 第 0 行 并 且 由 于 第 0 行 
左 半 边 已 经 满 了 ， 所 以 它 被 写 到 了 右 半边 。 注 意 地 址 4 在 标签 区 域 1 中 。 


























步骤 (7) 是 对 地 址 5 写 入 ,地 址 5 映射 到 cache 第 1 行 ， 标签 为 1。 我 们 还 没有 访问 过 地 址 5， 所 以 是 
缺失 ， 并 将 导致 数据 99 被 放 到 cache 第 1 行 余下 的 部 分 ， 即 右 半 边 。 此 时 的 cache 状态 图 如 下 图 左边 所 示 。 
步骤 (7) 后 的 cache 步骤 (8) 后 的 cache 
tpP30| dd PP3|0| dd 
~ [ Ac -| 
2|101 cc 2|10 | cc 
l10| bb 1| 99 110 1 bb 1 | 99 
010| aa |1 ee 0|2| 88 ||1| ee 




















标签 数据 标签 数据 标签 数据 标签 数据 

最 后 的 步骤 (8) 是 把 88 写 到 地 址 8。 地 址 8 映射 到 cache 第 0 行 并 在 标签 区 域 2 中 。 它 必定 被 放 到 
cache 中 ， 因 为 有 一 个 写 回 正在 使 用 。 然 而 ，cache 第 0 行 已 满 ， 所 以 有 一 项 需要 收回 。 采 用 FIFO 方案 ， 先 
进 先 出 。 对 于 第 0 行 的 情况 ， 先 进来 的 是 左 半 边 的 位 置 ， 所 以 它 被 88 蔡 换 ， 如 上 图 右边 所 示 。 
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4. 4.6 cache 性 能 


命中 所 花费 的 时 间 相 当 于 检查 是 否 命 中 (访问 cache 查找 表 ) 加 上 从 cache 中 检索 数据 以 及 返 
回 到 请 求 数据 的 CPU 毛 需 的 时 间 。 这 是 以 假设 更 新 替换 算法 的 运行 时 间 部 分 并 不 会 增加 总 花费 时 
间 为 前 提 的 。 由 于 cache 顾名思义 就 是 要 快 ， 所 以 检查 是 否 命中 花费 的 时 间 应 尽 可 能 得 少 。 

缺失 所 花费 的 时 间 稍 微 有 些 复 杂 。 首 先 需要 时 间 来 测试 是 否 命中 (访问 cache 查找 表 ) ， 然 
后 运行 替换 算法 ,然后 查询 选 定 的 cache 行 的 dirty 标志 位 。 如 果 该 标志 位 有 效 ， 则 必须 将 把 不 想 
要 的 数据 退回 主 RAM 的 时 间 也 添加 进来 ， 再 加 上 把 需要 的 数据 从 主 RAM 加 载 到 cache 上 所 需 的 
时 间 ， 从 cache 中 检索 数据 到 CPU 所 需 的 时 间 也 要 列 人 考虑 因素 。 

如 果 cache 位 置 W 命中 的 访问 时 间 是 ,但 是 在 cache 缺失 的 时 候 我 们 需要 把 字 M, 从 主 存 
储 器 传送 到 cache M ， 传 输 时 间 为 7,， 那 么 命中 率 太 = cache 命中 数 /总 请 求 数 ， 平 均 访问 时 间 Ts 
可 以 表示 为 : 





T=HxT+(l1-H)(T+D)=T+(1 -HD, 

由 于 7 比 艺 小 得 多 (当然 命中 比 缺 失 快 很 多 ) ， 因 此 要 想 使 平均 访问 时 间接 近 TT ， 则 需要 
高 命中 率 ( 换 句 话说 ， 尽 量 达到 H=1)。 

如 果 C, 是 大 小 为 5S, 的 cache 每 位 的 成 本 ，C, 是 大 小 为 5, 的 主 存储 器 每 位 的 成 本 ， 则 每 位 的 
平均 成 本 可 以 表示 为 : 

Cs = (CS + C8,)/(S, + 8,) = CS/(S) + 8,) + CS,/(S, + 9 ) 

考虑 到 C, 远大 于 C,， 则 cache 不 得 不 非常 小 ， 否 则 就 会 过 于 昂贵 。cache 设计 就 是 成 本 、 速 
度 和 大 小 之 间 的 权衡 (考虑 大 小 是 因为 低级 别 的 cache 通常 不 得 不 安装 到 CPU 所 在 的 同一 个 硅 芯 
片上 ， 分 享 了 宝贵 的 空间 ) 。 

定义 访问 效率 为 : T/Ts =1/{1+ (1-) (T/T,)|， 可 以 认为 是 命中 率 为 1 时 的 理论 最 大 速 
度 除 以 前 面 推 导 的 实际 平均 访问 速度 。7,/T, 访问 效率 的 一 些 典 型 值 期 望 的 命中 率 在 框 4.9 中 
给 出 。 
访问 效率 示例 

T/Ts 访问 效率 的 一 些 典 型 值 对 应 的 命中 率 如 下 所 示 : 
5 10 20 
06 | 033 | 020 | 0411 
H| 08 | 0.50 | 033 | 0.20 
09 | 0.67 | 0.50 | 0.33 

这 些 都 是 一 些 真正 CPU 中 的 典型 数字 : 在 内 存 为 16MHz 的 75MHz ARM7 中 ， 其 T/T 的 值 还 近 5， 可 
以 达到 0.75 的 命中 率 (有 一 个 很 好 的 cache 贯穿 于 整个 良性 的 或 可 预见 的 程序 执行 )。 其 他 拥有 更 快 cache 
的 系统 会 有 更 高 的 命中 率 。 在 多 级 cache 的 情况 下 ， 可 以 反复 分 析 达 到 7， 和 等 的 比率 。 当 然 ， 如 果 将 正 
在 执行 的 程序 全 部 放 入 cache 中 ， 命 中 率 将 达到 1.0。 

请 注意 ， 拥 有 一 个 大 缓存 的 系统 并 不 少见 。 这 是 一 些 数字 信和 号 处 理 器 采用 的 有 效 方法 : 大 容 
量 、 非 常 快 的 单 周 期 内 部 RAM 使 得 CPU 可 以 全 速 运行 其 操作 而 不 用 等 待 访问 内 存 。 一 个 流行 的 
例子 就 是 ADI 公司 的 ADSP2181 芯片 有 80KB 的 高 速 片上 存储 器 。 在 这 种 情况 下 ， 用 户 都 愿意 花 
大 价钱 拥有 与 CPU 紧 挨 在 一 起 的 大 RAM 块 ， 以 满足 性 能 需要 (所 有 操作 一 一 包括 内 存 访问 
在 一 个 周期 内 完成 ) 。 

有 各 种 改善 cache 性 能 的 技术 ， 例 如 预测 性 预 读 和 自 适 应 替换 算法 。 好 的 全 相 联 cache 可 以 
提供 高 达 0.9 的 命中 率 ， 尽 管 这 可 能 是 在 一 个 专门 的 系统 中 并 且 只 对 小 规模 的 程序 才能 实现 。 
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4. 4. 7 cache 一 致 性 


cache 一 致 性 是 确保 cache 中 一 个 内 存 位 置 的 所 有 副本 都 保持 相同 的 值 。 在 迄今 为 止 给 出 的 
例子 中 我 们 通过 简单 地 指定 clean/dirty 以 及 有 效 / 无 效 标志 来 解决 这 个 问题 。cache 一 致 性 在 共享 
存储 的 多 处 理 器 系统 中 是 很 重要 的 。 然 而 ,确保 cache 一 致 性 特别 困难 。 

想象 一 下 一 个 共享 变量 被 两 个 CPU (A 和 BB) 使 用 的 情况 。 如 果 它 被 两 个 CPU 上 读 取 ， 它 
将 最 终 在 两 个 CPU 上 都 进行 缓存 。 现 在 ， 如 果 两 个 CPU 之 一 ， 比 如 A， 改 变 了 变量 (通过 写 
入 ) ， 存 储 在 CPU A 的 cache 中 的 变量 将 被 更 新 。 在 直 写 系统 中 ， 变 量 的 新 值 会 
所 以 内 存 中 的 值 也 是 最 新 的 。 然 而 ，CPU B 的 cache 中 仍然 是 变量 的 旧 值 。 如 果 CPU B 读 取 这 
变量 ,将 cache 命中 且 会 使 用 cache 中 的 旧 值 ， 而 不 是 RAM 中 最 新 的 正确 值 。CPU i 
正确 变量 的 问题 称 为 一 致 性 (coherency) 问题 : CPU B 中 cache 的 . 1 
变量 与 该 变量 存储 在 其 他 地 方 的 值 不 一 致 。 vt 

一 个 并 行 计算 机 系统 的 例子 如 图 4-18 所 示 ， 它 可 以 被 扩展 成 更 wy 
多 的 处 理 器 。 由 于 CPU 间 共 享 总 线 带宽 ， 它 将 很 快 成 为 性 能 瓶颈 ， 
因此 将 独立 cache 做 得 很 大 以 尽量 减少 访问 共享 RAM (因此 也 减少 
了 总 线 的 使 用 ) 。 然 而 ， 这 只 能 加 剧 一 致 性 问题 。 

现代 计算 机 系统 中 使 用 了 很 多 技术 来 解决 这 个 问题 。 有 一 个 常 图 4- 18 ”此 图 给 出 了 两 个 




















用 的 解决 方法 我 们 把 它 叫做 侦 听 snooping) 。 侦 听 就 是 cache“ 听 ” ee 
共享 总 线 上 其 他 cache 访问 的 过 程 。 这 可 以 提供 两 个 有 用 的 信息 : 
第 一 个 是 何 时 另 一 个 cache 读 取 的 位 置 也 在 本 地 cache 中 ; 第 二 个 是 共享 主 RAM 相连 


何 时 另 一 个 cache 写 回 到 内 存 的 位 置 也 在 本 地 cache 中 。 

使 用 侦 听 收集 来 的 信息 ， 智 能 cache 控制 器 可 以 采取 某 种 形式 的 行动 来 防止 一 致 性 问题 的 发 
生 。 例 如 ， 当 其 他 的 cache 写 回 到 共享 RAM 的 某 个 位 置 时 ， 使 相应 的 本 地 cache 条 目 无 效 。 事 实 
上 ， 有 许多 处 理 这 个 问题 的 方法 ， 而 MESI 协议 是 其 中 最 受 欢迎 的 方法 之 一 。 

MESI 协议 以 它 的 几 个 状态 modified (修改 ) ，exclusive ( 独 占 ) ，shared (共享 ) 和 invalid 
(无 效 ) 的 首 字母 命名 ， 它 基于 如 图 4-19 所 示 的 几 个 状态 机 。 在 图 中 ， 读 缺 失 后 ，(S) 或 者 (E) 


读 命中 / 侦 听 读 命中 





0000 0000 2001 
0001 FEFEEEBEI 
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图 4-19 MESI 协议 状态 转换 图 ( 左 ) 以 及 缓存 一 部 分 来 显示 MESI 状态 标识 符 位 于 哪个 特定 的 缓存 行 
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表明 当 值 从 主 存储 器 取出 时 ， 另 一 个 cache 侦 听 单元 表示 它 也 保持 着 一 个 副本 (因而 用 S 表示 共 
享 ) ,或 者 没有 其 他 侦 听 单元 表示 正在 使 用 它 〈 因 而 用 下 表示 独占 ) 。 因 此 可 以 看 出 ， 侦 听 单 元 
不 仅仅 负责 侦 听 其 他 cache 的 访问 ， 而 且 当 它们 自己 缓存 着 其 他 cache 请 求 的 值 时 也 要 通知 其 他 
处 理 器 的 cache。 

每 个 缓存 行 可 以 有 与 之 相关 的 4 个 状态 之 一 而 不 是 有 效 /无 效 和 已 用 /清空 两 个 状态 ) : 

。 工 是 无 效 状态 ， 表 明 那 一 行 的 数据 不 正确 或 者 没有 缓存 任何 东西 。 

。 S 是 共享 状态 ， 意 味 着 其 他 CPU 可 能 也 缓存 着 这 个 值 。cache 可 以 通过 侦 听 共享 存储 总 线 

来 做 出 决定 。cache 中 的 值 与 主 存储 器 中 的 值 相 同 。 
。 M 是 修改 状态 ， 发 生 在 值 已 被 更 新 时 。 意 味 着 其 他 保持 着 这 个 值 的 cache 实际 上 保持 的 
是 旧 值 。 

。 玉 是 独占 状态 ， 表 明 目 前 没有 其 他 cache 保持 这 个 值 ， 它 与 主 存储 器 中 的 值 相 同 。 

如 果 这 个 方案 应 用 于 共享 存储 的 多 处 理 器 系统， 那么 每 个 CPU 有 它 自己 的 cache 并 且 每 个 
cache 使 用 MESI 协议 进行 控制 。cache 中 的 每 一 行 仍 需要 通常 的 行 号 和 标签 ,但 是 有 效 / 清 空 标 
志 由 两 个 标志 位 取代 ， 即 表示 无 效 、 修 改 、 独 占 或 共享 4 个 状态 。 

复位 时 ， 所 有 缓存 行 被 设置 为 无 效 ， 这 意味 着 缓存 行 中 任何 数据 都 是 不 正确 的 。 

读者 可 以 参考 框 4. 10 中 给 出 的 MESI 协议 在 双 处 理 器 共享 存储 系统 中 运行 的 例子 。 
MESI 协议 示例 

为 了 说 明 MESI 协议 在 双 处 理 器 共享 存储 系统 中 的 运作 ， 我 们 将 通过 典型 事件 序列 来 跟踪 系统 状态 。 
CPU 被 命名 为 A 和 B， 它 们 的 cache 从 复位 开始 (所 以 所 有 条 目 从 状态 I 开始 )。 

CPU A 从 共享 内 存 中 位 置 六 读 取 。 由 于 cache 全 部 无 效 ， 因 此 这 将 是 一 个 读 缺 失 并 导致 值 从 主 存储 器 
中 检索 。cache B 将 侦 听 总 线 ， 发 现 有 数据 传送 并 从 内 部 看 到 自己 没有 缓存 位 置 XX。 因 此 它 将 保持 安静 。 观 
察 状态 图 并 应 用 于 cache A, I 状态 没有 侦 听 信息 的 读 缺 失 将 会 导致 进入 下 状态 。 

想象 一 下 ，CPU B 随后 也 读 取 位 置 X， 而 cache B 中 没有 内 容 ， 因 此 读 缺 失 。cache B 从 共享 RAM 中 读 
取 值 ， 而 cache A 侦 听 总 线 。cache A 从 内 部 看 到 自己 也 缓存 了 位 置 X， 于 是 cache A 在 侦 听 总 线 上 告知 
cache B 它 保持 着 位 置 X。cache B 将 继续 读 取 值 ， 但 由 于 它 是 共享 读 取 ， 状 态 图 告诉 我 们 沿 着 从 状态 工 到 状 
态 S 的 读 缺 失 (S) 线 走 。 同 样 ，cache A 内 部 侦 听 读 命 中 ， 所 以 缓存 行 保持 位 置 X 的 状态 从 了 移动 到 S。 
这 上 时， 两 个 cache 都 保持 有 位 置 义 并 且 两 个 都 处 于 共享 状态 。 

接 下 来 ， 想 象 CPU A 向 位 置 义 写 。 根 据 直 写 策略 (任何 写 操作 都 直接 到 主 存储 器 )，cache A 意识 到 写 
命中 ， 行 状态 从 S 移动 至 E。cache B 侦 听 单 元 正在 监视 总 线 并 确定 一 个 侦 听 写 命中 。 由 于 它 也 在 状态 S， 
这 会 使 它 转 换 到 状态 I， 也 就 意味 着 无 效 。 这 是 正确 的 ， 因 为 它 缓 存 的 值 已 经 不 是 最 新 的 值 一 一 最 新 的 值 
在 其 他 cache 中 并 且 现在 返回 到 了 主 存储 器 。 


4.5 协 处 理 器 


某 些 计算 任务 用 硬件 可 以 更 好 地 执行 ， 这 种 硬件 不 属于 标准 CPU 的 范畴 。 一 个 常见 的 例子 
就 是 浮 点 数 的 处 理 ， 使 用 专用 的 浮 点 运算 单元 通常 比 用 CPU 更 快 〈 早 期 的 个 人 计算 机 硬件 中 不 
提供 浮 点 运算 : 一 些 读 者 可 能 还 记得 Intel 80386PC 母 板 上 的 插座 一 一 用 于 接 插 Intel 80387 浮 点 
协 处 理 器 和 其 他 蔡 代 品 ) 。 事 实 上 ， 从 最 早 的 计算 机 开始 ， 就 有 专用 硬件 用 来 执行 某 些 特定 的 功 
能 ， 它 与 CPU 是 分 开 的 ， 而 CPU 负责 执行 通用 计算 。 

除 浮 点 数 处理 之 外 ， 也 许 最 突出 的 例子 是 Intel 的 MMX 扩展 到 奔腾 处 理 器 的 范畴 ， 后 来 继续 
扩展 并 命名 为 SIMD 流 指 令 扩 展 (Streaming SIMD Extension ，SSE) 。 然 而 ， 还 有 其 他 的 一 一 许多 
现代 嵌入 式 处 理 器 包含 专用 协 处 理 器 单元 来 执行 特定 的 功能 ， 例 如 加 密 、 音 频 或 视频 处 理 ， 黄 至 
专用 的 输入 输出 处 理 。 
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我 们 将 在 后 面 的 4.7 节 研 究 MMX 和 SSE， 但 就 目前 而 言 ， 我 们 将 考虑 最 突出 的 例子 一 一 浮 
点 运算 单元 。 这 是 每 一 个 现代 台式 计算 机 都 会 包含 的 部 分 ， 内 置 在 它们 的 CPU 中 ,但 在 为 嵌入 
式 系统 设计 的 处 理 器 中 会 较 少 看 到 它们 。 


4.6 浮 点 运算 单元 

我 们 已 在 第 2 章 讲 过 ， 浮 点 数 通过 使 用 尾数 和 指数 来 为 特定 的 基本 系统 传输 数字 信息 。 
正如 我 们 前 面 介绍 的 ，IEEE 754 标准 浮 点 数 是 目前 最 常用 的 表示 方法 ， 在 计算 机 行业 内 广泛 
应 用 。 

由 于 这 种 标准 化 ， 实 现 这 个 标准 的 设备 并 不 像 使 用 标准 的 计算 机 系统 的 其 他 部 分 那样 变化 
频繁 。 例 如 ，Intel 80486 和 奔腾 处 理 器 包含 一 个 片上 FPU， 它 与 80387 一 样 ， 从 20 世纪 80 年 代 
中 期 其 原始 版 本 出 现 开 始 ， 基 本 上 保持 不 变 。 它 是 80386 的 独立 的 协 处 理 器 芯片 。 那 时 ， 买 台式 
PC 可 以 选择 带 或 不 带 板 上 FPU， 大 多 数 没有 FPU 的 计算 机 可 以 通过 购买 芯片 并 把 它 择 到 主板 的 
室 槽 上 进行 升级 ， 正 如 前 面 介绍 过 的 那样 。 

不 支持 浮 点 运算 是 有 原因 的 (现在 仍然 是 ) ， 这 要 归 因 于 FPU 的 性 质 : 硅 片 面积 大 并 且 耗 电 
多 。 特 别 是 对 做 入 式 和 电池 供电 系统 ， 使 用 没有 浮 点 运算 的 处 理 器 往往 是 首选 ， 所 有 算法 用 定点 
运算 实现 ， 或 者 使 用 更 高 级 的 语言 以 及 借用 软件 浮 点 模拟 器 。 

使 用 FPU 时 ，CPU 把 操作 数 加 载 到 主 CPU 和 FPU 共享 的 特殊 寄存 器 里 〈 它 或 者 是 一 个 单独 
的 芯片 ， 或 者 在 同一 硅 片 上 ) 。 通 过 发 送 一 条 特别 的 指令 激活 FPU。 然 后 FPU 从 共享 寄存 器 读 并 
开始 处 理 所 需 的 指令 。 一 段 时 间 后 ，FPU 返回 结果 到 特殊 寄存 器 并 通过 中 断 通知 CPU 进程 已 经 
完成 。 许 多 现代 处 理 器 在 执行 流水 线 中 都 包含 FPU， 因 此 不 需要 额外 的 中 断 (流水 线 将 在 5.2 节 
介绍 )。 

FPU 通常 不 能 直接 访问 内 存 中 或 者 共享 总 线 上 的 数据 。 它 只 能 作为 一 个 从 处 理 器 ， 去 操作 那 
些 由 主 CPU 加 载 到 通用 共享 寄存 器 中 的 数据 。 这 些 寄存 器 足够 长 ， 可 以 容纳 多 个 下 FF 754 双 精 
度数 ， 虽 然 内 部 使 用 扩展 的 中 间 格 式 ( 见 2.9.3 节 ) 。 

在 更 近 的 586 及 以 上 级 别 的 处 理 器 中 这 些 寄 存 器 与 MMX 单元 或 其 派生 的 SSE 家 族 〈( 见 4.7 
节 ) 共享 ， 这 意味 着 主 CPU 加 载 数据 到 寄存 器 ， 然 后 激活 MMX 或 者 FPU。 所 以 在 许多 586 级 别 
的 处 理 器 中 ，MMX 和 浮 点 运算 单元 不 能 一 起 使 用 ， 程 序 员 在 任何 特定 的 时 间 不 得 不 选择 两 个 模 
式 中 的 一 种 。 

FFU 或 MMX 的 局 限 性 导致 了 AMD 3DNow! 的 发 展 。 这 一 包含 21 条 新 指令 的 扩展 能 有 效 地 
让 AMD 处 理 器 在 同一 代码 块 中 交错 使 用 浮 点 指令 和 MMX 指令 。 而 这 促使 Intel 公司 开发 出 了 
SSE， 我 们 将 在 4.7 节 把 它 作 为 协 处 理 器 的 另 一 个 例子 做 进一步 的 讨论 。ARM FPU 作为 一 种 替代 
方法 , 框 4.11 介绍 了 它 的 发 展 。 

一 个 替代 方法 : ARM 处 理 器 上 的 FPU 

注意 ARM 工程 师 采用 的 另 一 种 浮 点 运算 单元 设计 方法 ，Steve Furber 在 《ARM System Architecture》 一 
书 中 这 样 描述 : 

工程 师 们 首先 调查 大 量 的 常用 软件 以 找到 什么 类 型 的 浮 点 运算 最 常 使 用 。 采 用 RISC 设计 方法 ， 他 们 在 
硅 片 上 设计 了 FPA 10 这 一 ARM 浮 点 协 处 理 器 来 实现 这 些 最 常见 的 指令 。 

FPA 10 有 4 个 阶段 的 流水 线 ， 使 它 在 每 个 周期 处 理 操 作 数 并 同时 执行 4 个 计算 。 不 太 常 见 的 指令 或 者 
纯粹 用 定点 软件 执行 ， 或 者 用 部 分 定点 软件 与 浮 点 FPA 10 指令 相 结合 的 方法 执行 。 





名 ” 某 些 486 系列 处 理 器 没有 浮 点 运算 能 力 ， 尤 其 是 那些 面向 低 功 耗 应 用 的 处 理 器 。 
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4. 6.1 浮 点 仿真 


正如 我 们 看 到 的 那样 ，FPU 是 一 个 可 以 操作 浮 点 数 的 设备 。 通 常情 况 下 ， 它 提供 标准 的 算 
术 、 逻 辑 、 比 较 以 及 乘法 功能 。 通 常 也 支持 除法 及 其 他 更 专门 的 操作 (如 四 舍 五 人 )。 大 多 数 
FPU 符合 IEEE 754 标准 ， 它 定义 了 它们 的 操作 、 精 度 等 。 

每 当 高 级 语言 程序 员 在 他 们 的 程序 中 使 用 浮 点 数据 类 型 时 ， 就 会 访问 FPU。 例 如 ， 在 C 程序 
语言 中 ， 这 些 类 型 几乎 全 是 那些 我 们 已 经 在 3. 4. 1 节 定 义 过 的 。 

。 float 〈 单 精度 ) 一 一 一 个 32 位 单 精 度 浮 点 数 包括 符号 位 、8 位 指数 以 及 23 位 尾数 。 

。 double 〈 双 精度 ) 一 一 一 个 64 位 双 精 度 浮 点 数 包 括 符号 位 、11 位 指数 以 及 52 位 尾数 。 

在 C 语言 中 有 一 个 进一步 的 浮 点 数据 类 型 ， 拥 有 比 双 精度 类 型 更 高 的 精度 ， 那 就 是 long 
double。 然 而 ，long double 精度 似乎 不 太 标 准 〈 正 如 3.4.1 节 简要 提 到 的 那样 ) ， 它 的 范围 分 布 从 
与 double 相同 ， 到 IEEE 754 扩展 中 间 格 式 ( 见 2.9.3 节 ) ， 最 多 能 达到 真正 的 四 精度 数 。 

然而 ， 尽 管 “ 浮 点 ”通常 意味 着 要 遵守 IEEE 754 标准 ， 但 这 也 不 是 必需 的 。 如 3. 4. 5. 2 
节 所 述 ， 这 具有 当 底 层 提 供 的 硬件 与 IEEE 754 兼容 时 才 支 持 。 在 一 些 功 耗 和 尺寸 更 值钱 的 说 
人 式 系 统 中 ,设计 师 作出 了 务实 的 选择 ， 用 略 低 于 IEEE 754 的 精度 来 提供 浮 点 运算 。 从 程序 
员 的 角度 来 看 ，float 和 double 数据 类 型 仍然 存在 ,但 使 用 它们 进行 计算 的 准确 性 可 能 有 所 
不 同 。 

在 没有 支持 浮 点 运算 的 硬件 的 地 方 ， 或 者 说 在 没有 FPU 的 地 方 ， 指 定 浮 点 操作 的 指令 将 被 
CPU 挑 拱 出 来 ,引起 中 断 (或 捕获 一 一 见 3.4.5 节 ) 并 由 专门 的 代码 来 处 理 。 代 蔡 FPU 的 代码 
称 为 浮 点 仿真 器 (FPE)。 

很 多 时 候 ，FPE 代码 在 精度 方面 是 IEEE 754 的 替代 品 。 使 用 多 个 定点 指令 计算 IEEE 754 操 
作 会 花费 非常 多 的 时 间 ， 这 是 一 个 速度 和 精确 度 之 间 的 权衡 。 通 常设 计 者 更 热衷 于 速度 。 

这 种 权衡 的 另 一 个 方面 在 图 4-20 中 进行 了 说 明 ， 其 中 显示 了 有 硬件 FPU 的 处 理 器 和 一 个 定 
点 处 理 器 。 在 两 者 上 执行 相同 的 代码 。 在 所 有 其 他 因素 都 一 样 〈 即 在 第 一 种 情况 下 两 者 之 间 的 
唯一 区 别 是 FPU 协 处 理 器 存在 与 否 ) 的 理想 情况 中 ， 有 FPU 的 处 理 器 可 以 把 浮 点 操作 送 给 FPU， 
它 进行 操作 时 耗 能 显著 ， 而 主 CPU 执行 其 他 无 关 的 功能 。 一 旦 完成 浮 点 运算 ,结果 被 传 回 CPU， 
操作 继续 进行 。 

| 
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图 4-20 ”两 种 设计 的 权衡 示意 图 : ( i ) 在 专用 硬件 FPU 上 执行 浮 点 运算 ， 而 定点 代码 继续 在 主 CPU 上 
执行 (上方 的 图 ); (站) 使 用 FPE 代码 执行 浮 点 运算 ， 它 耗 时 更 长 ， 但 耗 能 更 低 〈 下 方 的 图 ) 
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在 定点 处 理 器 的 情况 下 ，FPE 代码 仿真 浮 点 运算 运行 在 主 CPU 上 。 由 于 这 种 情况 下 没有 协 
处 理 器 ， 浮 点 代码 就 不 可 能 与 其 他 代码 并 行 执行 。 显 然 ， 程 序 将 执行 得 更 慢 ， 即 使 FPE 代码 可 
以 像 FPU 那样 快 。 不 过 ,通常 FPE 是 分 几 次 执行 的 ， 可 能 10 次 或 者 更 多 ， 比 在 FPU 上 执行 
得 慢 。 

在 能 量 消 耗 方 面 一 一 在 需要 考虑 电池 寿命 的 便携 式 电 子 产品 中 的 一 个 重要 度量 一 一 能 量 
(功率 x 时 间 ) 在 图 中 阴影 部 分 显示 。 昌 然 FPU 比 定点 CPU 耗 能 明显 要 多 , 但 它 可 以 在 更 短 的 


时 间 内 完成 “， 因 此 它 很 可 能 比 浮 点 仿真 的 能 基 效 率 更 高 。 当 然 ， 正 如 我 们 前 面 所 介绍 的 ， 在 这 


种 情况 下 系统 工程 师 可 以 决定 采用 低 精度 浮 点 程序 以 加 速 计 算 。 对 程序 员 来 说 更 可 取 的 是 避免 
使 用 浮 点 运算 ， 这 往往 是 一 个 嵌入 式 系统 开发 者 的 目标 。 程 序 员 可 以 考虑 使 用 长 整数 或 者 小 数 
(Q 格式 ) 表示 法 编程 ( 见 2.3.7 节 )。 


4. 7 SIMD 流 指令 扩展 (SSE) 和 多 媒体 扩展 


多 媒体 扩展 (multimedia extensions，MMX) 是 Intel 给 奔腾 处 理 器 的 硬件 多 媒体 协 处 理 器 的 
名 称 。MMX 单元 实际 上 是 一 个 SIMD ( 单 指令 多 数据 ) 机 ， 正 如 2.1.1 节 定义 过 的 那样 。 在 使 用 
时 ， 一 组 数据 被 加 载 到 MMX 寄存 器 组 ， 然 后 一 个 MMX 指令 可 以 并 行 地 在 每 个 寄存 器 上 操作 数 
据 。 这 种 处 理 的 一 个 例子 是 两 个 地 方 的 8 个 整数 同时 右 移 ， 或 者 4 个 寄存 器 的 值 与 另外 4 个 寄存 
器 值 相 加 ， 并 且 前 4 个 寄存 器 保存 计算 结果 。 这 一 主题 有 许多 变化 ， 但 重点 在 于 多 个 独立 的 操作 
由 单一 的 指令 引发 ， 并 同时 发 生 。 

Intel 发 布 了 MMX 后 ， 竞 争 对 手 Cyrix 和 AMD 很 快 为 他 们 的 设备 提供 了 类 似 的 加 速 器 ， 而 其 
他 厂家 如 ARM 和 Sun 也 为 他 们 的 RISC CPU 建造 了 定制 设计 的 同等 设备 。 这 些 硬件 设备 是 片上 提 
供 的 ， 而 不 是 作为 外 部 协 处 理 器 ， 这 源 于 对 多 媒体 数据 往往 涉及 大 量 数据 的 相对 简单 算术 操作 
的 重复 应 用 这 一 考虑 。 


4.7. 1 多 媒体 扩展 (MMX) 


这 种 类 型 处 理 的 一 个 例子 是 MMX 技术 用 来 适应 显示 屏 上 一 个 区 域 的 色彩 调整 。 如 果 屏 幕 上 
显示 数据 的 每 个 像素 是 一 个 字 节 或 者 字 ， 那 么 调整 颜色 也 许 仅仅 是 给 每 个 字 添 加 一 个 固定 值 ， 
或 者 可 能 是 一 个 逻辑 掩 码 操 作 。 无 论 确 切 的 操作 是 什么 ， 大 量 的 像素 必须 重复 同样 的 操作 ， 可 能 
是 1280 x 1024 像素 或 者 更 多 。 如 果 在 标准 CPU 上 执行 将 有 1280 x 1024 = 1 300 000 个 重复 
累加 。 

加 入 了 MMX 单元 ，CPU 就 可 以 把 数据 块 加 载 到 MMX 单元 ， 然 后 同时 对 数据 块 里 的 所 有 数 
据 项 执行 算术 运算 。 同 时 ，CPL 本 身 是 空 闪 的 ， 可 以 执行 其 他 的 操作 。 很 容易 看 到 如 果 MMX 单 
元 有 16 个 数据 项 ， 那 么 处 理 所 有 像素 所 需 的 时 间 可 以 减少 到 1716 左右 。 

4.7.2 MMX 实现 

对 MMX 扩展 的 论证 是 有 说 服 力 的 ， 尤 其 鉴于 在 MMX 发 展 的 几 年 里 个 人 计算 机 对 多 媒体 处 

理 需 求 的 增长 。 然 而 ， 相 关 的 问题 也 被 提 了 出 来 ， 那 就 是 如 何 找 到 最 好 的 实现 这 种 处 理 的 方式 以 


及 支持 什么 类 型 的 处 理 。 
在 Intel 奔腾 处 理 器 中 ， 问 题 的 实现 主要 在 于 Intel 需要 任何 新 的 奔腾 处 理 器 向 后 兼容 ， 与 早 





名 ”这 是 假设 当 FPC 不 再 计算 时 保持 关闭 ， 因 而 不 疡 和 持 功 耗 。 遗 憾 的 是 ， 实 际 中 这 个 假设 往往 不 是 真 的 。 
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期 的 8088 以 及 更 早 的 DOS 上 使 用 的 16 位 软件 ， 黄 至 是 与 一 些 令 人 惊讶 的 微软 Windows 的 现代 版 
本 兼容 。 因 此 ， 通 过 改变 x86 CPU 的 指令 集 来 扩大 它 的 功能 的 可 能 性 非常 小 ， 否 则 新 的 软件 不 能 
在 旧 机 器 上 运行 ， 这 会 令 消费 者 不 高 兴 (这 种 兼容 性 改变 需要 逐步 完成 ， 获 得 消费 者 的 理解 需 
要 时 间 )。 此 外 ， 从 一 个 奔腾 版 本 到 下 一 个 ， 寄 存 器 数 昌 不 能 突然 增加 ， 因 为 这 会 使 旧 软 件 中 使 
用 的 上 下 文保 存 和 恢复 过 程 无 效 。 

不 过 ，Intel 的 工程 师 发 现 了 两 个 聪明 的 方法 来 实现 他 们 的 目标 。 第 一 个 方法 是 给 奔腾 一 个 
额外 的 指令 ， 可 将 处 理 器 设 在 MMX 模式 〈 他 们 发 布 了 简单 的 代码 ， 让 程序 员 首 先 检 查 MMX 的 
能 力 ， 然 后 在 有 MMX 的 机 器 上 运行 一 个 代码 版 本 ， 而 在 没有 MMX 的 机 器 上 运行 另 一 个 ) 。 在 
MMX 模式 ， 额 外 的 57 条 新 指令 对 MMX 处 理 可 用 。 旧 软件 不 
能 使 用 这 种 模式 ， 因 此 不 会 遇 到 额外 的 指令 。Intel 工程 师 的 
第 二 个 创新 是 重复 使 用 浮 点 运算 单元 寄存 器 来 保存 MMX 数 
据 。 在 正常 模式 下， 这 些 寄存 器 由 FPU 使 用 ,但 在 MMX 模式 
下 ， 它 们 被 用 于 MMX 处 理 。 

遗憾 的 是 ， 程 序 员 并 不 采用 MMX 全 集 。 也 有 一 些 针对 
选择 MMX 模式 完全 去 除 浮 点 运算 功能 的 批评 (在 第 4.6 节 
曾 提 到 ) 。 最 终 ， 源 于 SSE 的 灵感 ， 导 致 了 AMD 3DNow! 的 
产生 。 然 而 ， 在 我 们 讨论 SSE ( 见 4.7.4 节 ) 之 前 ， 让 我 们 A 
来 看 看 这 些 系 统一 般 情况 下 是 如 何 工 作 的 ， 先 从 MMX 图 4-21 只 有 MMX 功能 的 Intel 





开始 。 CPU 的 MMX 寄存 器 、 
如 图 4-21 所 示 为 MMX 单元 的 逻辑 结构 ， 包 括 它 的 8 个 寄 ee 
存 器 (不 过 需要 指出 这 个 图 是 高 度 形式 化 的 一 真实 的 MMX 接 示 意图 


比 画 在 这 里 的 要 复杂 得 多 ) 。 注 意 总 线 从 8 个 ALU 块 的 输出 反馈 回 寄存 器 。 这 是 MMX 单元 内 部 
结构 的 简单 表示 ， 但 足以 说 明 每 个 寄存 器 路 径 的 并 行 性 。 每 一 行 都 是 一 个 单独 的 总 线 。 

在 MMX 模式 ， 有 8 个 64 位 宽 的 寄存 器 (为 什么 是 64 位 ? 还 记得 表示 双 精 度 浮 点 数 需 要 64 
位 吗 ? 双 精 度 浮 点 数 在 FPU 模式 下 通常 保存 在 这 些 寄存 器 中 )。 指 令 是 并 行 执行 的 ， 并 且 除 了 加 
载 和 存储 指令 外 ， 指 令 都 是 在 寄存 器 间 进 行 的 。 

每 个 寄存 器 都 是 64 位 大 小 ， 它 可 以 容纳 8 字 节 或 4 个 16 位 字 或 2 个 32 位 双 字 或 1 个 64 位 
四 字 。 这 些 都 是 在 程序 员 的 控制 下 进行 的 ， 为 创建 MMX 代码 带 来 了 极 大 的 灵活 性 。 

它 支 持 算术 、 人 逻辑、 比较 和 转换 操作 。 这 些 操作 可 以 应 用 到 传输 寄存 器 内 的 任何 已 知 位 宽 的 
数据 。 当 然 ， 加 载 正 确 大 小 的 数据 以 及 选择 合适 的 操作 应 用 于 该 数据 是 程序 员 的 责任 。 


4.7.3 MMX 的 使 用 





为 了 在 配置 合适 的 奔腾 处 理 器 上 使 用 MMX 的 功能 ， 首 先 要 检查 CPU 是 否 可 以 进入 MMX 模 
式 (有 一 个 简单 的 向 后 兼容 机 制 可 以 做 到 这 一 点 )。 如 果 可 以 ，MMX 模式 处 理 就 可 以 继续 ; 否 
则 ， 必 须 借助 CPU 的 能 力 提供 执行 相同 功能 的 代码 。 显 然 ， 这 会 慢 很 多 ,但 在 每 一 个 可 移植 的 
程序 中 ， 向 后 兼容 性 都 是 需要 的 。 

然而 ， 对 于 特殊 的 程序 使 用 这 种 技术 所 获得 的 速度 提升 是 很 显著 的 ， 现 实生 活 中 图 像 处 理 
对 MMX 能 力 的 测试 表明 : 在 Linux 环境 下 ，MMX 优化 代码 比 测试 软件 中 没有 MMX 代码 要 快 至 
少 14 倍 。 


第 4 章 ”处 理 器 内 部 组 成 ”105 


4.7.4 SIMD 流 指令 扩展 (SSE) 


MMX 实际 上 是 Intel 对 x86 指令 集 上 单 指令 流 多 数据 流 (SIMD) 扩展 的 专 有 命名 ,最初 于 
1997 年 推出 。AMD 推出 了 他 们 的 硬件 扩展 ， 并 命名 为 3DNow!， 在 Intel 只 支持 整数 的 硬件 上 增 
加 了 浮 点 运算 的 功能 。 互 不 示弱 ，Intel 各 种 SIMD 流 指令 扩展 ( Streaming SIMD Extension, SSE) 
与 AMD 的 3DNow! 之 间 的 斗争 愈演愈烈 。 

SSE 为 SIMD 的 数据 处 理 提供 了 70 条 新 指令 以 及 8 个 新 的 128 位 寄存 器 >。 这 些 寄存 器 可 以 
存放 一 般 的 整数 值 ， 但 现在 当然 也 允许 使 用 浮 点 数 : 

。 4 个 32 位 整数 

。 8 个 16 位 短 整数 

。 16 字 生 或 字符 

。 2 个 64 位 双 精 度 浮 点 数 

。 4 个 32 位 单 精度 浮 点 数 

SSE 实际 上 已 经 有 了 相当 大 的 变化 ， 从 最 初 的 版 本 到 SSE2 、SSE3 、SSE4 以 及 最 近 的 SSE5 。 
每 次 更 迭 都 带 来 需要 程序 员 学 习 的 新 功能 、 新 指令 。 有 趣 的 是 ， 从 SSF4 往 后 ，Intel 就 不 再 继续 
支持 使 用 旧 的 MMX 寄存 器 了 。 

SSE4 指令 集 引 入 了 一 些 快 速 的 字符 串 处 理 操 作 ， 也 有 许多 的 浮 点 操作 ， 例 如 并 行 乘法 、 内 
由 、 四 含 五 人 等 。 现 在 Intel 和 AMD 的 版 本 之 间 也 有 一 定 程度 的 兼容 性 〈 可 能 比 之 前 x86 处 理 器 
时 代 兼 容 更 多 ) ， 但 是 功能 的 不 断 革新 ， 加 上 一 - 些 积极 的 营销 策略 ， 使 得 对 这 两 个 x86 式 处 理 器 
功能 的 直接 比较 变 得 十 分 困难 。 


4.7.5 使 用 SSE 和 MMX 


有 这 么 多 的 版 本 ， 在 不 同 的 CPU 之 间 有 不 同 的 兼容 性 ， 更 不 用 说 制造 商 之 间 了 ， 软 件 工 具 
往往 落后 于 硬件 功能 的 发 展 。 许 多 编译 器 软 认 不 支持 这 些 协 处 理 器 ， 或 充其量 在 可 能 的 硬件 功 
能 范围 内 提供 少量 的 支持 (宁愿 限定 只 支持 最 常用 的 选项 )。 虽 然 近 些 年 情况 有 显著 的 改善 ， 尤 
其 Intel 自己 提供 了 可 以 大 概 支 持 这 些 扩展 的 编译 器 ， 但 编程 工具 并 不 倾向 于 充分 利用 这 个 专用 
硬件 。 

此 外 ， 需 要 给 各 种 不 同 的 处 理 器 写 几 个 专用 的 代码 版 本 ， 这 意味 着 SIMD 扩展 指令 的 使 用 往 
往 只 限于 专业 软件 实例 ， 而 不 是 商业 操作 系统 和 应 用 的 一 般 发 行 。 然 而 ， 它 们 的 存在 和 使 用 ， 尤 
其 是 在 台式 机 和 服务 器 中 ， 拥 有 绝对 最 高 的 处 理性 能 。 


4.8 内 入 式 系 统 中 的 协 处 理 


今天 很 少 有 髓 入 式 系统 使 用 x86 式 处 理 器 ， 尽 管 也 有 低 功 耗 的 变形 ， 例 如 Atom 处 理 器 。 到 
目前 为 止 ， 占 比例 最 大 的 是 基于 ARM 的 处 理 器 或 者 使 用 类 似 的 低 功 耗 RISC CPU。 即 使 是 x86 处 
理 器 ， 也 很 少 有 完整 的 SSE 功能 (因为 这 些 协 处 理 器 以 其 高 耗 能 而 著称 ) 。 然 而 ， 它 们 确实 在 台 
式 机 和 服务 器 系统 应 用 上 有 优势 ， 原 因 在 于 与 台式 机 系统 可 以 运行 任何 软件 相 比 ， 许 多 嵌入 式 
系统 只 运行 控制 或 专用 软件 。 人 台式 机 系统 需要 软件 向 后 兼容 〈 如 在 根本 没有 扩展 的 情况 下 ， 对 
SSE 的 代码 、MMX 的 代码 、SSE4 的 代码 以 及 裸 x86 代码 的 要 求 ) ， 而 在 嵌入 式 系统 中 ， 程 序 员 
事先 确切 地 知道 哪些 硬件 可 用 并 能 适当 地 开发 自己 的 软件 。 





日 在 64 位 模式 时 会 翻番 到 16 个 128 位 寄存 器 。 
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反 过 来 也 是 如 此 一 一 了 解 要 运行 什么 软件 也 给 修改 或 创建 自 定义 硬件 提供 了 机 会 。 作 为 这 
个 过 程 的 一 个 例证 ， 在 4.6 节 我 们 介绍 过 FPA 10， 它 是 主要 的 ARM 浮 点 协 处 理 器 ， 它 的 设计 是 
基于 对 最 常见 软件 需求 的 分 析 。 

除了 已 经 提 到 的 FPU 和 MMX/SSE 外 ， 在 脱 人 式 系统 中 还 可 以 看 到 许多 其 他 的 协 处 理 器 。 考 
虑 下 面 的 ARM 特定 的 协 处 理 器 : 

e Jazelle 这 个 名 字 似 乎 是 将 Java 语言 中 的 “J” 加 到 Gazelle (羚羊 ) 上 ， 让 人 联想 到 

迅速 而 敏捷 地 执行 Java 代码 的 情景 ， 而 这 正 是 目的 所 在 。 设 计 Jazelle 的 ARM 工程 师 们 
创建 了 一 个 硬件 单元 ， 能 够 不 需要 中 断 而 直接 处 理 许 多 Java 指令 〈 字 节 码 ) ， 这 带 来 了 
速度 和 效率 方面 的 改进 。jJava 的 分 支 (BXJ) 指令 进入 Jazelle 处 理 ， 使 得 CPL 能 自然 地 
执行 大 多 数 常见 的 字 节 码 (并 捕获 其 余部 分 以 在 优化 的 软件 程序 中 执行 ) 。 

。 NEON， 先 进 的 SIMD 一 一 与 Intel 的 SSE 类 似 ， 这 是 一 个 拥有 非常 完备 指令 集 的 64 位 或 
128 位 SIMD 扩展 ， 它 能 够 并 行 执行 成 批 的 整数 和 浮 点 数 操作 。 这 也 许 正 是 SSE 本 来 应 该 
的 样子 ， 如 果 它 从 零 开 始 ， 作 为 一 个 现代 处 理 器 从 底 向 上 进行 设计 (而 不 是 把 MMX 添 
加 到 30 岁 的 半 向 后 兼容 的 硅 片 上 )。 

。 VFP 一 一 作为 ARM 处 理 器 的 向 量 协 处 理 朵 ， 它 增强 了 浮 点 运算 的 功能 (VFP 的 全 称 为 
vector floating point， 即 向 量 浮 点 )。 它 用 于 和 矩阵 和 向 量 计算 ， 即 对 数据 数组 的 重复 序列 
操作 。 

还 记得 早 在 3. 2. 6 节 我 们 讨论 过 的 RISC 和 CISC 处 理 器 的 不 同 原理 吗 ? CISC 处 理 器 在 进化 

的 过 程 中 被 描述 为 膝 肿 而 笨重 ， 它 把 越 来 越 多 的 功能 包含 到 单个 CPU 指令 中 。 相 比 之 下 ，RISC 
精简 而 快捷 。 

RISC 指令 往往 很 简单 ， 但 很 快速 。 其 论据 在 于 即使 做 任何 有 用 的 事 需 要 更 多 的 指令 ， 这 些 
间 令 也 可 以 执行 的 更 快 ， 从 而 整体 性 能 与 CISC 方法 相 比 有 所 提升 。 然 而 ， 协 处 理 器 的 使 用 使 得 
RISC 处 理 器 (小 、 精 简 、 快 速 ) 把 特定 的 计算 任务 交 给 单独 的 处 理 单元 。 因 此 ，CISC 处 理 器 提 
供 的 一 些 特定 于 应 用 的 指令 也 可 以 交 给 RISC 协 处 理 器 单元 来 处 理 。 

回想 起 Intel 为 早期 MMX 使 用 的 双 模 式 ， 一 个 进一步 的 改进 涉及 可 重 构 协 处 理 器 。 它 允许 调 
整 协 处 理 器 使 用 的 硅 资 源 以 适应 任何 特定 时 间 的 计算 需要 。 显 而 易 见 ， 可 重 构 是 有 代价 的 一 一 
它 将 耗费 时 间 和 能 耗 。 然 而 ， 一 些 复杂 运算 对 快 迷 处 理 的 需求 很 容易 使 这 些 代 价 物 有 所 值 。 

对 内 入 式 系统 设计 者 来 说 ， 可 能 最 好 的 例子 是 现场 可 编程 门 阵列 (FPCGA)。FPGA 中 的 “ 软 
核 ” 处 理 器 是 用 像 Verilog 这 样 的 高 级 硬件 描述 语言 编写 的 。 事 实 上 ， 我 们 将 在 后 面 第 8 章 开发 
一 个 这 样 的 处 理 器 。 现 在 我 们 需要 考虑 的 FPGA 的 首要 特征 之 一 是 它们 的 可 重 构 性 。 已 有 的 许多 
免费 的 和 商业 的 软 核实 现 了 协 处 理 器 接口 ， 一 些 研 究 人 员 已 经 尝试 把 可 重 构 处 理 单元 附加 到 它 
们 之 上 。 估 们 很 可 能 会 继续 探索 这 些 方法 对 于 扔 入 式 系统 的 重要 性 ， 并 且 必 然 会 越 来 越 多 地 采 
用 它们 。 














4.9 小 结 


本 章 研究 了 现在 的 通用 微 处 理 器 的 一 般 内 部 元 素 ， 包 括 通过 内 部 总 线 与 ALU、FPU 或 其 他 
协 处 理 器 和 加 速 单元 等 不 同 的 功能 单元 之 间 传 输 数 据 的 方式 。 

系统 内 有 内 存 管理 单元 和 cache， 可 以 把 它们 看 做 在 处 理 器 核 和 外 部 存储 系统 之 间 的 地 址 与 
数据 总 线 上 的 过 渡 区 。 通 过 预测 未 来 的 内 存 召 回 模式 以 及 存储 过 去 的 一 些 与 所 预测 的 未 来 访问 
相 匹 配 的 内 存 访问 ，cache 可 以 加 速 平均 内 存 访问 时 间 。 同 时 ， 内 存 管理 单元 扮演 两 个 重要 的 角 
色 : 第 一 个 是 允许 使 用 虚拟 内 存 ， 这 扩展 了 处 理 器 能 使 用 的 地 址 范围 和 存储 空间 ; 第 二 个 是 允许 
定义 和 使 用 内 存 段 和 页 一 一 一 个 很 重要 的 好 处 就 是 运行 中 进程 间 的 内 存 保护 (阻止 某 些 进 程 柳 


第 4 章 处 理 器 内 部 组 成 107 


盖 其 他 进程 或 内 核 的 私有 存储 ， 从 而 防止 或 者 至 少 是 减少 崩溃 的 可 能 性 )。 但 是 使 用 虚拟 内 存 需 
要 付出 代价 : 它 往往 会 降低 平均 内 存 访问 时 间 。 

本 章 内 容 是 现代 CPU 中 通常 会 实现 的 标准 功能 单元 和 通用 处 理 器 的 功能 。 在 第 5 章 中 ,我 
们 将 把 注意 力 转 向 性 能 改善 一 一 些 常 见 的 加 速 技术 。 我 们 将 会 看 到 ， 在 CPU 制造 商 一 味 追 求 
或 越 来 越 快 或 功 耗 越 来 越 低 的 过 程 中 (但 这 两 个 特点 很 少 同时 具备 ) ， 出 现 了 一 些 有 趣 的 方法 ， 
并 且 必 将 得 到 应 用 。 


4.1 4.2.2 节 谈 到 了 ALU 设计 ， 如 果 每 个 逻辑 门 的 输入 和 输出 之 间 有 10ns 的 传输 延迟 ,那么 ALU 的 工作 
频率 最 大 能 达到 多 少 ? 
4.2 参照 问题 4. 1 考虑 2 位 的 ALU: 
a 4 个 这 样 的 ALU 怎样 结合 成 一 个 8 位 的 ALU 〈 针 对 无 符号 数 )? 
b. 要 处 理 有 符号 补 码 ， 你 将 如 何 修改 设计 ? 
4.3 下 面 的 伪 代 码 段 在 一 个 RISC 处 理 器 上 执行 : 
Joop i = 0,1 
read X from memory address 0 
read Y from memory address 1 
QZ = 区 + 
write Z to memory address i+l 
该 处 理 器 需要 一 个 周期 来 完成 所 有 内 部 操作 (包括 cache 访问 ) 。 从 cache 把 数据 保存 到 RAM 需 
要 4 个 周期 ， 从 RAM 加 载 数 据 到 cache 需要 4 个 周期 (加 上 1 个 周期 继续 从 cache 到 CPU) 。 
假设 该 系统 采用 直接 相 联 cache， 初 始 化 为 空 。 如 果 cache 使 用 下 面 的 策略 ， 此 段 代 码 需要 多 少 
个 周期 ? 
a. 写 回 。 
b. 无 写 分 配 的 直 写 (WTNWA)。 
c 有 写 分 配 的 直 写 (WTWA)。 
4.4 ”你 有 一 台 小 冯 ， 诺 依 曼 计 算 机 ， 它 的 数据 cache 可 以 在 2 路 组 关联 和 直接 映射 之 间 切 换 。 它 有 512 个 
缓存 行 ， 每 行 可 以 容纳 一 个 数据 字 ， 所 有 的 数据 传输 以 字 为 单位 。 在 处 理 器 上 运行 如 下 算法 : 
define data area A from address 0 to 1023 


define data area B from address 1024 to 2047 
set RO = 512, R1 = address 0, R2 = address 1024 


{ 


1p [R1]= RO+RO ; Save to address stored in Rl1 
[R2]=[R1-1]+[R1] 


R1 = Ri+1 
R2 = R2+1 
RO = RO-1 
if RO>0 then goto lp 


a. 如果 系统 采用 写 同 协议 ， 哪 一 种 cache 结构 最 好 ? 

b. 写 出 3 种 cache 替换 算法 并 评价 它们 的 硬件 复杂 性 。 

c 给 出 的 算法 在 清空 cache 复位 后 运行 并 且 人 迭代 两 次 。 如 果 系 统 采用 使 用 直 写 (和 写 分 配 ) 的 直接 
相 联 cache，CPU 到 cache 之 间 的 传输 需要 10ns，cache 到 RAM 之 间 的 传输 需要 50ns， 回 答 下 面 
的 问题 : 

i . 命中 率 是 多 少 ? 
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ii. 两 次 迭代 的 平均 访问 时 间 是 多 少 ? 
重 写 前 一 个 问题 的 算法 以 提高 命中 率 。( 提示 : 调整 数据 区 定义 ,而 不 是 循环 代码 。) 
一 个 先进 的 MP3/ 照 片 播放 器 使 用 虚拟 内 存 ， 从 而 能 使 CPU 访问 1GiB 的 逻辑 存储 空间 ， 尽 管 系统 只 
有 1MiB 的 RAM。 操 作 系 统 设置 MMU 的 页 回 定 为 4KiB 大 小 。 字 节 宽 度 的 RAM 有 20ns 的 访问 时 间 ， 
而 硬盘 受 IDE 接口 限制 以 2.2MiB/s 的 速度 传输 数据 。RISC CPU 使 用 32 位 指令 。 
a. 同时 能 有 多 少 页 停 驻 在 RAM 中 ? 
b. MMU 到 RAM 之 问 的 地 址 总 线 包 含 多 少 连 线 ? 
c. 从 RAM 中 读 每 条 指令 需要 多 长 时 间 ? 
使 用 问题 4. 6 中 的 信息 ， 计 算 从 光盘 到 RAM (或 从 RAM 到 光盘 ) 加 载 一 个 页 需要 多 少时 间 。 使 用 该 
答案 来 确定 CPU 从 被 收回 的 内 存 页 中 检索 一 个 指令 的 两 个 可 能 的 时 间 。 
前 面 问题 中 的 MMU 到 RAM 之 间 的 地 址 总 线 不 够 宽 ， 不 足以 容纳 更 多 的 存储 器 。 写 出 3 种 克服 地 址 
总 线 大 小 限制 以 及 在 物理 接口 上 连接 更 多 存储 器 的 方法 硬件 或 软件 )。 
一 个 双 处 理 器 的 机 器 有 一 个 共享 的 存储 块 和 一 条 侦 听 总 线 。 每 个 处 理 器 模块 中 的 与 回 cache 实现 MESI 
协议 ， 所 有 缓存 行 从 无 效 (1) 状态 玫 始 。 

通过 以 下 序列 跟踪 cache 状态 (X、Y 和 Z 不 相等 ) : 
.CPU] 读 取 RAM 地 址 X 
.CPU1 写 入 地 址 X 
.CPU2 谈 取 地 址 了 
.CPU1 读 取 地 址 Y 
.CPU1 写 入 地 址 Y 
.CPU2 读 取 地 址 X 
.CPU2 读 取 地 址 Z 
. CPU1 写 信 地址 Zz 
考虑 如 下 框图 ， 在 一 个 三 总 线 CPU 中 连接 了 一 个 ALU 单元 和 3 个 寄存 器 。 假 设 除了 一 个 与 每 个 总 线 
相连 的 接口 以 外 ， 这 个 框图 是 完善 的 ， 并 且 存 储 器 中 数据 传输 比 寄存 器 中 数据 的 转移 慢 很 多 。 








co nD- 





a 在 图 中 男科 头 指示 每 个 总 线 连接 中 允许 的 数据 流向 。 

b.X+Y 这 个 操作 的 效率 如 何 ? 

c. X +X 这 个 操作 的 效率 如 何 ? 

d.(X +Y) +2Z 这 个 操作 的 效率 如 何 ? 

e. 给 出 嚼 外 一 个 可 以 提高 效率 的 连接 图 。 

给 出 每 个 ALU 单元 都 能 实现 的 两 个 主要 的 算术 操作 和 4 个 基本 的 逻辑 操作 〈 移 位 操作 除外 ) 。 

给 出 在 最 简单 的 CPU 中 都 能 实现 的 3 种 不 同类 型 的 或 者 说 位 移 方向 不 同 的 操作 ， 除 了 循环 (rotate) 
指令 以 外 。( 你 能 解释 为 什么 只 要 求 3 种 类 型 而 不 是 4 种 吗 ?) 

根据 框 4. 1 中 的 传输 延迟 的 例子 ,确定 8 位 ADD 操作 和 8 位 AND 操作 的 传输 延迟 。 在 每 种 情况 中 ， 
假设 功能 选择 信号 都 是 正确 的 且 不 变 (这 样 它们 就 不 会 影响 时 序 ) 。 如 果 这 个 ALU 单元 是 单 周期 的 ， 
那么 这 个 设备 的 最 大 时 钟 速度 是 多 少 ? 

如 果 说 cache 可 以 提高 处 理 速 度 ， 邦 么 你 能 想 出 制造 商 不 上 自 接 卖 集成 了 大 量 片上 缓存 块 的 集成 电路 


4. 16 
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的 原 央 吗 ? 

一 个 包含 直接 相 联 cache 的 计算 机 系统 ， 它 命中 的 访问 时 间 为 10ns， 末 命中 的 访问 时 间 为 120ns。 当 
命中 率 为 0.3 峙 ， 计 算 其 平均 访问 时 间 。 

假 疫 问 题 4. 15 中 邦 台 计算 机 的 设计 者 想 概 提高 性 能 ， 他 们 只 能 改变 系统 中 的 3 个 部 件 〈 考 虑 到 每 个 
改变 都 要 花 钱 ， 他 们 只 想 改 变 其 中 的 某 一 个 部 件 ， 选 择 其 中 最 好 的 一 个 ) 。 人 确定 下 面 娜 项 可 以 最 好 
地 改善 这 个 系统 的 平均 访问 时 间 : 

a 装 一 个 更 快 的 主 存 储 器 ， 甚 访问 时 间 为 100ns。 

b. 装 一 个 更 快 的 cache， 其 访问 时 间 为 8ns。 

c. 在 一 个 更 大 的 cache 中 采用 更 好 的 排列 方法 和 更 聪明 的 替换 算法 将 命中 率 提高 到 0. 4。 
假设 一 个 小 型 的 16 位 庶 人 式 系统 主要 用 来 处 理 整数 代码 ， 但 是 有 时 需要 快速 地 处 理 一 块 浮 点 数据 的 
代码 ， 这 可 以 用 专门 的 在 FPE 中 执行 的 FPU 来 处 理 ， 也 可 以 将 代码 转换 成 大 型 整数 来 处 理 。 讨 论 对 
于 解决 方案 中 是 否 应 该 包含 FTPU， 应 该 考虑 的 主要 因素 都 有 哪些。 

第 3 章 中 已 经 介绍 了 相对 -二 址 的 概念 。 简 单 讨论 这 与 空间 和 时 间 局 部 性 原理 ( 兄 4.4.4 节 ) 的 关联 。 
在 有 关 cache 的 部 分 ，“ 有 写 分 配 的 直 写 ” (WTWA) 是 什么 意思 ? 它 与 “无 写 分 配 的 直 写 ” 
(WTNWA) 有 什么 不 同 ? 在 一 个 输出 大 量 临时 的 图 像 数 据 给 内 存 喘 射 显示 的 系统 中 哪个 更 合适 ? 

在 一 个 配 有 经 过 全 面 半 发 和 调试 的 软件 套件 的 敌人 式 系统 中 ， 一 个 有 经 验 的 程序 员 在 调试 一 段 时 不 
时 出 问题 的 代码 段 时 在 RAM 的 0x000 位 置 设置 了 一 个 观察 点 ©。 但 是 你 的 代码 、 数 据 和 变量 都 在 存 
储 器 中 的 另外 某 个 位 置 ， 你 当然 没有 固定 哪个 变量 或 者 代码 在 内 存 0x000 的 位 置 。 你 能 理解 为 什么 
别人 应 该 关注 这 个 内 存 位 置 ， 即 便 这 个 位 置 可 能 永远 也 不 会 用 到 吗 ? 





日 ”观察 点 《watchpoint) 是 内 在 中 的 -个 位 置 ， 调 试 软件 将 不 断 地 监测 ， 当 这 个 位 置 的 内 容 变化 时 停止 程序 执行 ， 
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很 少 有 读者 完全 按 顺 序 来 学 习 像 本 书 这 样 的 书 ， 这 是 可 以 理解 的 。 我 本 人 总 是 鼓励 学 生 能 
从 不 同 的 教材 中 选择 合适 自己 的 ， 这 些 教材 因 作者 而 异 ， 描 述 不 同 的 问题 会 用 不 同 的 方法 ， 对 于 
不 同 读者 来 说 总 会 有 更 合适 的 〈 这 就 是 为 什么 图 书馆 会 存在 了 ) 。 而 有 的 读者 喜欢 按 顺序 学 习 不 
同 章节 ， 对 于 这 样 的 读者 ， 恭 喜 你 们 顺序 地 读 到 了 这 里 。 我 希望 读者 能 够 在 脑海 中 呈现 出 计算 机 
设计 进化 过 程 的 图 像 。 所 有 需要 的 模块 都 按 功能 集合 成 一 个 可 以 工作 的 CPU 并 将 被 评估 ， 限 制 
模块 性 能 的 部 分 将 被 调整 或 加 速 。 小 幅度 的 加 速 很 普遍 ， 贯 穿 整个 设计 ; 相反 ， 真 正 的 革命 性 改 
变 却 很 少 。 在 大 多 数 情况 下 ,设计 的 改进 源 于 性 能 的 需要 ， 而 从 根本 上 说 ， 是 源 于 市 场 的 需求 。 
比如 在 舱 入 式 系统 中 ， 功 耗 影响 着 电池 的 寿命 ， 是 一 个 显著 的 因素 ， 因 此 通常 总 能 找到 很 多 理由 
采用 解决 功 耗 问题 的 革新 技术 而 不 是 采用 性 能 提高 技术 。 

每 个 人 都 希望 获得 更 高 速 的 计算 机 。 有 人 曾 说 ， 在 信息 的 高 速 路 上 是 没有 速度 限制 的 。 在 大 
多 数 情况 下 ， 用 户 的 直觉 是 高 速 意味 着 节约 更 多 的 时 间 (然而 本 书 作 者 十 分 质疑 这 种 观点 : 现 
在 实验 室 中 的 学 生 在 使 用 高 速 的 计算 机 ， 却 比 上 一 代 使 用 相对 较 慢 计算 机 的 学 生 浪费 了 更 多 的 
时 间 ) 。 对 于 艇 人 式 系统 ， 特 别 是 那些 需要 实时 处 理 的 藤 入 式 系 统 ， 更 快 的 计算 速度 无 疑 能 够 带 
来 更 高 的 性 能 。 然 而 对 于 台式 机 却 有 这 样 的 质疑 ， 大 部 分 计算 机 速度 的 提高 ， 内 存 、 外 存 容量 也 
增长 都 被 软件 开发 人 员 给 消耗 掉 了 ， 他 们 开发 的 软件 需要 大 基 的 存储 ， 特 别 是 对 于 操作 系统 。 尽 
管 如 此 ， 性 能 目标 依旧 是 计算 机 工业 中 最 主要 的 驱动 因素 ,并 且 已 经 催生 出 了 许多 伟大 的 解决 
方案 。 在 本 章 中 ， 我 们 将 对 一 些 主流 的 性 能 提高 方法 进行 探讨 。 


5. 1 CPU 加 速 技术 简介 

对 于 第 四 代 计 算 机 来 说 ， 时 钟 是 影响 性 能 的 主要 方法 ， 人 们 总 是 想方设法 把 它 弄 得 更 快 。 但 
这 会 导致 一 系列 问题 ， 如 发 热 和 昂贵 的 处 理 器 价格 ,因为 目前 处 理 器 生产 工艺 已 经 接近 当前 技 
术 的 极限 ， 再 往 上 提高 将 变 得 越发 困难 。 

部 分 处 理 器 设计 人 员 已 经 把 目光 转向 其 他 方法 ， 比 如 RISC 处 理 器 的 出 现 和 逐渐 壮大 。 一 些 
公司 主要 致力 于 增加 处 理 器 字 长 ， 从 4 位 到 8 位 、16 位 、 一 -直人 到 32 位 。 近 期 的 一 些 设计 已 经 达 
到 了 64 位 和 128 位 ， 甚 至 出 现 了 1024 位 的 系统 (更 多 内 容 详 见 第 9 章 ) 。 

现在 的 技术 不 仅 单纯 提高 时 钟 速度 ， 而 是 更 侧重 于 在 每 个 时 钟 周期 做 更 多 的 事情 ， 这 导致 
了 并 行 和 流水 线 的 出 现 〈 或 是 两 种 技术 同时 使 用 ) 。 

Sun 公司 则 在 他 们 的 Java 处 理 器 上 采用 了 一 种 不 同 的 技术 ， 这 种 技术 重新 运用 了 CISC 处 理 
器 的 思想 ， 但 这 会 是 从 软件 的 角度 (这 种 方法 极 好 地 将 堆栈 和 RISC 处 理 器 整合 到 一 起 ) 。 目 前 ， 
PicoJava 及 类 似 的 处 理 器 都 是 为 Java 语言 量 身 定制 的 ， 而 不 像 其 他 大 多 数 处 理 器 那样 通过 对 语言 
进行 翻译 来 解释 并 在 处 理 器 上 执行 。 这 种 以 软件 为 本 的 设计 方法 在 商业 上 取得 了 一 定 成 功 ， 或 
许可 以 预示 这 种 设计 方法 的 时 代 将 要 到 来 。 





本 章 主要 涉及 目前 处 理 器 设计 领域 所 采用 主流 设计 思想 和 方法 ， 这 些 思想 和 方法 更 多 是 出 
于 商业 利益 而 不 是 学 术 上 的 考虑 ， 总 的 目的 就 是 让 消费 者 尽 可 能 快速 地 获得 更 快 和 更 便宜 的 产 


品 。 我 们 从 最 重要 、 最 常见 的 流水 线 技术 开始 。 
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5.2 流水 线 


虽然 流水 线 的 出 现 有 时 候 更 应 该 归功 于 现代 工业 制造 技术 而 不 是 计算 机 的 发 展 ， 但 它 能 够 
提高 处 理 器 的 指令 吞吐 率 〈throughput) 而 不 是 缩短 每 条 指令 的 执行 时 间 (事实 上 缩短 每 条 指令 
的 执行 时 间 能 够 带 来 更 多 的 性 能 提高 ) 。 这 种 技术 是 将 每 条 指令 的 处 理 划分 为 多 个 阶段 ， 从 而 能 
够 同时 处 理 多 条 指令 ， 进 而 获得 整体 吞吐 率 提高 。 

奉 吐 率 是 指 每 秒 执行 操作 的 数目 ,在 3. 5. 2 节 中 是 指 每 条 指令 所 需 的 时 钟 周期 数 。 吞 吐 率 度 
量 方法 比 每 条 指令 需要 多 长 时 间 完 成 更 重要 。 为 了 证 明 这 一 点 ， 我 们 来 考虑 一 条 典型 处 理 器 指 


令 处 理 流程 ， 如 图 5-1 所 示 。 


| 
图 5-1 一 个 简单 CPU 的 四 级 指令 处 理 流程 图 
在 这 个 例子 中 ， 每 条 指令 分 4 个 阶段 完成 处 理 ， 其 中 需要 假设 的 是 ， 每 个 阶段 的 持续 时 间 均 
为 1 个 时 钟 周期 。 每 条 指令 需要 一 次 通过 所 有 4 个 阶段 来 完成 处 理 ， 因 此 需要 4 个 时 钟 周 期 。 
对 于 一 个 非 流 水 线 的 机 器 ， 取 到 并 处 理 一 条 指令 需要 在 前 一 个 指令 处 理 完成 之 后 才能 开始 。 
我 们 通过 以 下 预约 表 (reservation table) 来 展示 : 



































取 指 | 指令 1 | 2 | | 指令 3 | 
泽 码 | 指令 1 | 指令 2 | | 
充 操 作 数 指令 1 | | 指令 2 | 
执行 指令 指令 1 | 指令 2 

时 钟 周期 | 1 2 3 | 4 | 5 6 7 8 9 





表 的 左边 是 处 理 指令 所 需 的 不 同 功能 单元 ， 底 部 是 时 钟 周期 。 表 中 给 出 了 在 每 个 时 钟 周期 
处 理 器 所 进行 的 工作 。 这 个 表 展 示 了 连续 9 个 时 钟 周期 处 理 器 所 进行 的 工作 。 

在 第 一 个 时 钟 周期 处 理 器 取 到 指令 1 ， 然 后 依次 进行 译 码 ， 取 操作 数 ， 最 后 执行 指令 所 表示 
的 功能 。 完 成 以 上 步骤 ， 指 令 2 才 开始 它 的 处 理 流程 。 

然而 从 另 一 个 角度 考虑 这 个 预约 表 : 假如 我 们 把 列 当 做 存在 的 资源 ， 把 行当 做 时 隙 (time 
slot) ， 可 以 清楚 地 发 现 每 个 资源 在 大 部 分 的 时 际 上 什么 也 没 做 。 如 有 果 能 够 将 多 条 指令 重 从 执行 ， 
让 每 个 资源 在 更 多 的 时 间 里 有 事情 做 ， 执 行 效率 将 会 提高 很 多 。 接 下 来 试 试 我 们 的 想法 : 























取 指 指令 1 | 指令 2 | 指令 3 | 指令 4 | 指令 5 | 指令 6 | 指令 7 | 指令 8 | 指令 9 | 

令 指令 4 | 指令 5 | 指令 6 | 指令 7 | 指令 8 | 
取 操 作 数 指令 1 | 指令 2 | 指令 3 | 指令 4 | 指令 5 | 指令 6 | 指令 7 
执行 指令 指令 1 | 指令 2 | 指令 3 | 指令 4 | 指令 5 | 指令 6 
时 钟 周 期 | 1 2 3 4 | 5 6 7 8 9 





























这 种 方法 最 显著 的 效果 是 原本 在 第 9 个 时 钟 周期 才 开始 指令 3， 现 在 通过 重合 执行 ， 包 含 了 
9 条 指令 ， 这 样 指令 速度 为 原来 的 3 倍 。 这 种 方法 并 没有 提高 时 钟 频率 或 者 改变 处 理 顺 序 ， 只 是 
让 指令 重合 执行 。 

这 种 重要 执行 叫做 流水 线 ， 已 经 被 几乎 所 有 现代 处 理 器 所 采用 来 提高 执行 速度 。 这 种 技 
术 的 控制 单元 变 得 越 来 越 复杂 ， 但 与 在 速度 上 获得 的 提高 相 比 不 值 一 提 ， 请 参考 框 5.1 中 的 
分 析 。 
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流水 线 加 速 比 

流水 线 度量 有 两 个 指标 : 加 速 比 和 效率 。 首 先 我 们 考虑 一 个 会 有 s 条 指令 的 程序 ， 每 系 指令 需要 nn 个 
时 钟 周期 完成 处 理 。 

在 非 流水 线 处 理 器 上 ， 这 个 程序 的 执行 时 间 为 sx 个 时 钟 周期 。 

然后 我 们 把 这 个 处 理 器 划分 为 n 个 流水 阶段 ， 完 成 每 个 阶段 需要 1 个 时 钟 周期 。 这 样 ， 需 要 多 长 时 间 
来 执行 这 个 程序 呢 ? 

第 1 条 指令 需要 nn 个 时 钟 周期 来 完成 ， 但 往 后 每 个 时 钟 周 期 都 会 完成 1 条 指令 ， 所 以 总 的 执行 时 间 为 
n+(s-1) 个 时 钟 周期 。 

加 速 比 S, 为 非 流水 线 所 需 的 时 钟 周期 除 以 流水 线 所 需 的 时 钟 周期 : 
n+s—l 

可 以 观察 到 ， 当 s-*o ， 则 有 S,>n， 这 意味 着 程序 越 大 ， 它 的 效率 就 会 越 高 ( 因为 不 管 流水 线 有 多 
快 ， 其 内 部 都 是 从 没有 任何 指令 开始 ， 并 以 1 条 指令 一 一 程序 的 最 后 一 条 指令 结束 ) 。 换 名 话说 ， 流 水 线 的 
开始 状态 和 结束 状态 相对 来 说 并 不 那么 高 效 。 

所 以 另 一 个 度量 指标 一- 效率 ， 需 要 考虑 流水 线 的 开始 状态 和 结束 状态 。 效 率 是 指 所 有 执行 的 指令 数 
除 以 流水 线 执行 的 时 间 : 


一 








5 


E = 
四 n+s—-l 





这 个 公式 看 起 来 与 加 速 比 公式 有 点 类 似 ， 因 而 E, =S,/n， 并 且 与 知 吐 率 相等 。 知 吐 率 是 指 单 位 时 间 完 
成 的 指令 数目 。 

下 面 将 讨论 更 多 流水 线 所 带 来 的 难题 ,但 首先 我 们 先 来 了 解 一 下 不 同类 型 的 流水 线 。 
5.2.1 多 功能 流水 线 


流水 线 并 不 一 定 是 单一 功能 的 ， 它 可 以 处 理 不 同类 型 的 指令 ， 即 多 功能 流水 线 。 事 实 上 这 很 
平常 ， 只 是 会 增加 控制 的 复杂 度 。 考 虑 如 图 5-2 所 示 的 一 个 例子 。 


将 内 存 地 址 3 上 的 内 容 与 R1 内 容 相 加 后 放 入 Ri 


将 立即 数 3 与 R1 内 容 相 加 后 放 入 R1 





图 5-2 在 一 个 简单 四 级 流水 线 CPU 上 处 理 两 条 汇编 指令 的 流程 网 。 第 1 条 指令 使 用 了 流水 线 
[的 每 一 级 ， 而 第 2 条 流水 线 内 为 不 需要 从 内 存 里 取 操 作 数 ， 因 此 跳 过 了 第 3 级 。 这 
涪 明了 多 功能 流水 线 的 概念 ， 即 根据 指令 的 不 同 需要 按 不 同 的 方式 处 理 指令 
在 图 5-2 上 部 所 示 的 流水 线 中 ,第 1 条 指令 需要 从 内 存 中 取出 内 容 ， 所 以 它 需 要 “ 取 操 作 
数 ” 这 个 单元 。 在 下 部 所 示 的 相同 流水 线 显 示 稍 后 执行 了 一 条 不 同 指令 。 这 条 指令 不 需要 取 操 
作 数 (因为 立即 数 3 作为 指令 的 一 部 分 已 经 存在 于 处 理 器 中 ) ， 所 以 在 这 个 条 件 下 不 需要 “ 取 操 
作 数 ”这 个 单元 。 然 而 ， 这 并 不 意味 着 流水 线 会 跳 过 这 一 级 因而 使 得 第 2 条 指令 能 够 更 快 地 完 
成 。 考 虑 以 下 预约 表 ， 表 中 两 条 指令 顺序 执行 。 




















取 指 ADD RI1, [#8] | ADD RI1， 起 指令 3 指令 4 指令 5 指令 6 
译 码 ] ADD R1, {#5] | ADD RI， 抱 指令 3 间 令 4 指令 5 
| 下 操作 数 ADD R1, [#8] | NOP 指令 3 指令 4 
执行 指令 ADD R1, [#3] ADD R1， 操 指令 3 
时 钟 周期 | 1 3 4 5 6 
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在 第 4 个 时 钟 周 期 ， 第 2 条 指令 被 标 为 “NOP” (无 操作 )。 但 处 理 器 却 不 外 从 这 码 
跳 到 执行 阶段 ， 因 为 在 第 4 个 时 钟 周期 ,处 在 执行 阶段 的 硬件 仍 在 处 理 前 一 条 指令 (ADD 
RI1, [#3])。 

这 还 阑 明了 一 个 有 趣 的 观点 : 流水 线 需 要 满足 不 同类 型 指令 的 需求 ， 而 且 受 限于 最 慢 的 指 
令 。 对 于 非 流水 线 处 理 器 ， 简 单 指令 可 以 快速 地 处 理 ， 复 杂 指 令 会 慢 一 些 。 但 对 于 流水 线 处 理 
天， 所 有 的 指令 都 需要 相同 的 时 间 来 处 理 ， 除 非 是 采用 了 更 先进 的 技术 。 

设计 人 员 需 要 小 心 对 待 流水 线 ， 至 关 重 要 的 一 点 是 要 让 流水 线 的 所 有 单元 在 大 多 数 时 间 内 
保持 工作 ， 然 而 我 们 却 在 预约 表 中 加 入 了 “NOP”。“NOP” 意味 着 这 个 时 钟 周 期 无 操作 或 资源 
浪费 。 因 此 为 了 最 小 化 这 种 浪费 时 阶 ， 需 要 调查 所 有 指令 的 需求 和 指令 的 出 现 频 率 。 


5. 2.2 动态 流水 线 


在 多 功能 流水 线 概念 的 基础 上 ， 动 态 流水 线 并 不 是 简单 地 绕 过 没 用 的 功能 ， 而 是 根据 正在 
处 理 的 指令 和 处 理 器 状态 ， 人 允许 选择 不 同 
的 流水 线 执行 路 径 。 

图 5-3 展示 了 一 个 虚构 的 例子 ， 人 
4 个 未 命名 的 流水 线 单元 (T 到 了 ) ， 
着 3 条 不 同 的 指令 ， 得 条 人 经 过 了 这 水 





不 同 的 路 径 。 然 而 这 种 流水 线 复杂 的 选择 OO 第 1 条 和 pd 可 能 的 

控制 部 件 和 用 来 为 跳跃 单元 的 指令 〈 例 如 第 2 条 指令 指令 路 径 

指令 3 绕 过 了 流水 线 的 T, 单元 ) 进行 降 速 ”网 5-3 动态 流水 线 示 意图 ， 它 允许 不 同 指令 根据 其 执 
的 延迟 部 件 在 图 中 并 没有 展现 出 来 。 行 的 需要 通过 流水 线 不 同 的 路 径 


人 
如 ， 指令 3 为 了 跟 在 指令 2 后 ， 需 要 延迟 一 个 时 钟 周 期 以 避免 在 了 单元 与 指令 2 发 生 冲 突 。 
指令 1 需要 绕 过 流水 线 的 T, 单元 ， 但 是 并 不 需要 保持 跟 在 任何 指令 后 边 ， 因 此 不 需要 延迟 。 

感 兴趣 的 读者 可 能 会 注意 到 ， 很 多 处 理 器 会 足够 智能 地 为 自己 决定 哪些 指令 需要 通过 流水 
线 上 的 各 单元 并 按 顺 序 执行 ， 哪 些 指 令 可 以 乱 序 执行 从 而 避免 过 度 的 延迟 。 


5.2.3 改变 流水 线 模式 


到 目前 为 止 ， 所 有 的 讨论 都 假设 每 条 经 过 流水 线 的 指令 是 不 相关 的 ， 并 且 每 一 条 指令 都 能 
在 之 前 的 指令 结束 后 进入 流水 线 。 

显然 ， 这 种 假设 并 不 总 是 正确 。 我 们 将 考虑 3 种 情况 ， 它 们 将 在 本 节 和 接 下 来 的 两 节 中 对 流 
水 线 的 操作 产生 影响 。 

首先 ， 现 在 很 多 处 理 器 都 会 发 生 模式 改变 ， 这 是 通过 接收 一 条 模式 改变 指令 来 触发 的 ， 将 会 
改变 随后 到 来 指令 的 处 理 方 式 。 例 如 : 

1. 在 ARM 处 理 器 中 ， 指 令 集 替换 (16 位 Thumb 指令 集 替 换 原 有 的 32 位 ARM 指令 集 )。 

2. 在 大 多 数 处 理 中 (包括 ARM 处 理 器 ) ， 大 小 尾 端 模式 转换 。 先 前 的 指令 存储 为 小 尾 端 模 
式 ， 在 改变 大 小 尾 端 模式 后 ， 后 来 的 指令 存储 为 大 尾 端 模式 。 

3. 对 于 一 些 定点 DSP 处 理 器 如 TMS320 系列 ， 改 变 算数 模式 来 开启 或 关闭 符号 扩展 ， 从 而 
影响 后 续 指 令 的 执行 。 

虽然 这 些 模 式 指 令 会 被 使 用 ， 但 芝 开 个 所。 人 
执行 ; 而 第 三 种 指令 只 在 每 个 算术 运算 块 执行 - 

对 于 这 种 极 少 执行 的 指令 ， 六 多数 全 融 着 和 在 续 收 到 这 种 指令 后 清空 流水 线 ， 这 意味 着 所 
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有 已 经 进入 流水 线 的 指令 都 将 被 丢弃 而 流水 线 会 重新 开始 执行 。 这 种 方法 虽然 看 起 来 十 分 极端 ， 
但 是 对 于 电路 逻辑 却 十 分 简单 。 同 时 ， 这 种 方法 虽然 对 流水 线 效率 影响 很 大 ， 但 是 由 于 在 大 多 数 
程序 里 极 少 出 现 ， 所 以 对 处 理 器 的 性 能 几乎 没有 影响 。 

下 面 的 预约 表 展示 了 接收 到 这 种 模式 改变 指令 (ChM) 时 流水 线 的 情况 。 从 表 中 可 以 看 到 ， 
指令 3、4、5 都 已 经 进入 流水 线 ， 在 接收 到 模式 改变 指令 后 ， 这 些 指 令 被 丢弃 ， 处 理 器 在 第 6 个 
时 钟 局 期 改变 执行 模式 ， 然 后 这 些 指令 被 重新 取 指 。 





























取 指 指令 1 ChM 指令 3 | 指令 4 指令 5 xX 指令 3 指令 4 指令 5 
洋 码 | 指令 1 | ChM | 指令 3 | 指令 4 x 指令 3 | 指令 4 
取 操 作 数 指令 1 ChM 指令 3 X 指令 3 
执行 指令 1 ChM xX 

时 钟 周期 | 1 2 3 4 5 6 |7 8 9 


























这 个 预约 表 可 以 是 以 下 指令 序列 的 执行 结果 : 

上 邻 1; ADD RO, RO, Rl 

指令 2; MODE big endian 

指令 3: SUB R4，R1L1，RO 

指令 4，NOP 

指令 5: NOP 

指令 6: NOP 
其 中 ,指令 3、4 、5 以 大 尾 端 模式 译 码 (虽然 在 编译 器 的 助 记 符 中 并 没有 体现 出 来 ,但 是 通过 查 
看 存储 这 一 块 程序 的 内 存 是 可 以 看 到 的 )。 

一 旦 流水 线 的 模式 改变 ， 则 需要 清空 流水 线 ， 后续 的 指令 将 被 重新 取 指 。 

在 比较 新 的 处 理 器 中 ， 这 种 操作 由 处 理 器 自动 执行 ; 但 对 于 比较 旧 的 处 理 器 ， 这 种 操作 不 会 
自动 执行 ， 而 需要 由 编译 器 来 完成 (甚至 是 由 编程 人 员 手 动 修改 汇编 代码 来 完成 ) 。 在 上 面 的 例 
子 中 ， 只 需 对 程序 进行 简单 修改 就 可 以 完成 模式 改变 时 流水 线 清空 的 工作 ， 这 是 通过 改变 指令 
的 顺序 来 完成 的 : 

痢 令 1: ADD RO, RO, R1 

指令 2: MODE big endian 

指令 3: NOP 

上 今 4: NOP 

指令 5: NOP 

指令 6: SUB R4，RL，RO 

换 句 话说 ， 只 需 在 模式 改变 指令 后 播 人 一 系列 的 NOP 指令 即 可 ， 这 是 因为 NOP 指令 不 管 使 
用 大 尾 端 模式 读 取 还 是 小 尾 端 模 式 读 取 ， 对 于 译 码 的 结果 都 是 一 样 的 。 例 如 ， 指 令 0x0000 和 指 
令 0xFFFF 反 过 来 读 也 是 0x0000 和 0xFFFF， 使 得 当 发 生 模 式 改 变 时 ， 指 令 译 码 不 管 从 哪个 方向 
读 指 令 ， 译 码 的 结果 都 是 一 样 的 。 

5. 2.4 数据 相关 冒险 

与 改变 处 理 器 模式 会 引发 处 理 器 运行 的 一 系列 问题 一 样 ， 处 理 器 内 部 寄存 器 和 内 存 存 储 位 
置 的 变化 也 会 对 程序 的 运行 造成 影响 。 考 虑 以 下 指令 序列 ， 它 们 就 会 引发 一 些 问题 : 

ADD RO，R2，R1 ; RO=R2+RI 

AND RI, RO0， 扰 ; RI1=R0O AND2 
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从 以 上 的 指令 序列 可 以 看 到 ,第 二 条 指令 依赖 第 一 条 指令 的 结果 ，R0 需要 先 被 写 回 才能 够 被 
第 二 条 指令 正确 读 取 。 但 在 流水 线 中 ， 这 会 引发 问题 ， 来 看 看 如 图 5-4 所 示 虚 构 的 这 条 流水 线 。 





图 5-4 五 级 流水 线 示 意图 


这 条 流水 线 的 主要 特点 是 ， 流 水 线 未 尾 额外 增加 了 一 级 写 回 (store result) ， 而 不 管 运算 是 否 发 
生 。 增 加 这 一 级 首先 是 为 了 阐明 数据 相关 这 个 问题 ， 其 次 在 大 部 分 处 理 器 中 确实 也 包含 着 这 一 级 。 

下 面 的 这 个 预约 表 是 上 述 两 条 指令 在 这 个 流水 线 中 执行 的 情况 ， 需 要 注意 的 是 ， 在 每 个 时 
际 中 都 有 寄存 器 RO 内 容 的 指示 : 


















































取 指 ADD RO AND RI 

译 码 ADD RO AND RI1 

取 操 作 数 ADD RO AND R1 

执行 指令 ADD RO AND RI1 

写 回 ADD RO AND RI1 
时 钟 周期 1 yp 3 5 6 

RO X X X R2 + R1 R2 +Rl 





这 里 需要 注意 的 是 AND 这 条 指令 ， 需 要 RO 作为 它 的 一 个 操作 数 (RI = RO AND 2) ， 而 这 个 
“ 取 操 作 数 ”是 流水 线 的 第 三 级 (如 表 中 黑体 字 所 示 )。 在 这 个 例子 中 ,第 二 条 指令 的 取 操 作 数 
发 生 在 第 4 个 时 钟 周 期 ， 但 是 第 一 条 指令 在 第 5 个 时 钟 周 期 才 将 结果 写 回 寄存 器 RO0。 如 此 ， 第 
二 条 指令 将 会 从 RO 取 回 一 个 不 正确 的 值 。 

这 种 现象 称 为 RAW (read after write， 先 读 后 写 ) 冒险 (hazard) ， 按 照 程序 意图 ， 寄 存 器 RO 
应 该 是 在 被 写 之 后 才 被 读 ， 但 在 上 述 情况 中 则 是 在 被 写 回 前 被 第 二 条 指令 读 取 了 。 

如 果 仔 细 观 察 上 述 例子 ， 还 存在 另 一 个 冒险 。 在 这 个 例子 中 ， 寄 存 器 Rl 存在 WAR (write 
after read ， 先 写 后 读 ) 反 相 关 性 。 第 一 条 指令 需要 读 R1， 第 二 条 指令 则 需要 写 R1， 这 个 冒险 就 
是 要 确定 第 二 条 指令 在 写 R1 前 第 一 条 指令 必须 已 经 对 Rl 读 取 完毕 。 在 上 述 流 水 线 中 ， 这 种 冒 
险 不 会 发 生 ， 但 是 对 于 现在 一 些 比 较 先 进 的 带 有 乱 序 执行 〈out-of-order) 的 动态 流水 线 中 ， 这 种 
冒险 是 存在 的 。 

还 有 一 种 冒险 是 WAW (write after write， 写 后 写 ) 冒险 ,例子 在 框 5.2 中 给 出 。 

WAW 冒险 

这 种 冒险 解释 起 来 比较 简单 。 写 后 写 冒 险 是 当 有 两 条 指令 对 同一 地 址 写 ， 而 第 三 条 指令 则 需要 从 这 个 
地 址 读 的 时 候 发 生 。 它 需要 保证 读 操作 既 不 能 发 生得 太 早 也 不 能 发 生得 太 晚 。 以 下 给 出 一 个 例子 : 

ADD RO, R2, Rl1 ; RO=R2+RI1 

AND R1 ，RO ， 殷 ; Rl1=RO AND2 

SUB RO，R3， 相 ; RO=R3-1 

在 这 个 例子 中 RO 存在 WAW 冒险 。 不 需要 给 出 预约 表 就 可 以 很 容易 地 看 到 第 二 条 指令 的 取 操 作 数 必须 
在 第 一 条 指令 写 回 完成 后 和 第 三 条 指令 写 回 没有 完成 前 发 生 。 

需要 注意 的 是 ， 在 这 一 段 指令 过 后 ，RO 存放 的 是 最 后 的 结果 ， 所 以 第 一 条 指令 对 RO 的 写 只 是 一 个 暂 
存 。 这 种 现象 可 以 通过 将 数据 存放 到 其 他 的 寄存 器 或 通过 数据 转发 (在 5.2.10 节 中 详 述 ) 来 消除 ， 同 时 
不 影响 最 终结 果 。WAW 冒险 有 时 在 内 存 系统 中 发 生 ， 因 为 RAM 的 写 回 速度 比 读 取 速度 慢 。 通 常 这 种 冒险 
由 cache 硬件 来 解决 ， 因 此 不 需要 考虑 。 

















179 


116 . 第 5 章 提高 CPU 性 能 


5.2.5 条 件 冒 险 


给 定 一 些 在 一 定 条 件 下 才能 够 执行 的 指令 ， 问 题 是 在 什么 时 候 检查 这 些 条 
否 应 该 执行 。 以 下 给 出 一 个 程序 段 例子 : 

ADDS R0O，R2，R1 ; RO =R2+RI， 并 设 壮 条 件 标 忆 位 

ANDEQ RL，RO，#2 ”如 果 到 标志 位 被 置 1，R1 =RO AND 2 


件 以 确定 指令 


之 前 提 到 过 的 ARM 处 理 器 中 ， 如 果 在 指令 的 末尾 带 “S” 则 表示 指令 的 执行 结果 需要 更 新 
条 件 标志 位 (如 零 标 志 位 (zero fag) 、 人 负数 标志 位 (negative flag) 、 进 位 标志 位 (cary flag) 以 
及 游 出 标志 位 (〈 overflow flag) ， 这 些 标志 都 存放 在 ARM 处 理 器 的 CPSR 寄存 器 中 ， 框 5.3 对 几 种 
常见 的 条 件 标志 位 进行 了 讨论 ) 。 第 2 条 指令 的 执行 是 带 有 条 件 的 , “EQ” 指 出 了 这 条 指令 当 且 


仅 当 先前 指令 的 执行 结果 为 0 (在 这 个 例子 中 是 当 且 仅 当 RO 为 0) 时 才 执行 。 
接 下 来 ,我 们 根据 以 上 例子 的 指令 填写 预约 表 : 












































取 指 ADDS RO ANDEQ RI 指令 3 指令 4 

译 码 ADDS RO ANDEQ RI 指令 3 

版 操 作 数 | ADDS RO | ANDEQ RI 

执行 指 仿 ADDS RO 

写 问 

时 钟 周期 | 1 2 3 4 5 6 
NZCV 0000 0000 0000 0000 

条 件 标志 位 

虽然 不 同 的 处 理 器 对 寄存 器 的 命名 有 所 区 别 ， 但 是 在 目前 市 场 上 大 部 分 处 理 器 中 ， 还 是 可 以 看 到 


如 下 的 条 件 标志 位 : 
(负数 标志 位 ): 最 后 一 条 条 件 设置 指令 的 结果 为 负数 
和 氏 ( 零 标志 位 ): 最 后 一 条 条 件 设置 指令 的 结果 为 0; 
C (进位 标志 位 ): 最 后 一 条 条 件 设 置 指令 的 结果 产生 了 进位 ; 
V (溢出 标志 位 ): 最 后 一 条 条 件 设置 指令 的 结果 产生 溢出 。 





在 下 表 中 我 们 将 给 出 一 些 影 响 这 些 标 志 位 发 生变 化 的 指令 例子 。 根 据 指令 末尾 是 否 带 有 “S” 来 决定 


引 令 的 结果 是 否 影响 条 件 标志 位 。 












































指令 J 操作 N z C V 
MOV R0， 可 RO =0 0 0 0 0 
MOV R1， 扰 R1 =2 0 0 0 0 
SUBS R2, Ri, Rl R2 =R1 - R1， 结 果 为 0 0 1 0 0 
SUBS R3, RO, Rl R3 =R0 - Rl1， 绪 果 为 负 ，0xFFFFFFFD 1 0 0 0 
SUB R2, RI, RL R2 =R1 -R1， 结 果 为 0， 但 不 人 “SS7” 1 0 0 0 
ADDS R4, RI1, R1 R4 =RL +RL1， 引 果 为 正 ，0x4 0 0 0 0 
ADDS R5, R4, R3 R5 =R4 +R3, Ox4 +OxFFFFFFFD 0 0 1 | 0 
MOV R8, #0x7FFFFFFF 最 大 的 正 32 位 有 符号 类 0 0 0 0 
ADDS R9, R8, RI R9 =R8 + Rl1， 结 果 为 0x80000001 0 0 0 1 











值得 注意 的 是 ,0 一 般 被 当成 正 数 而 不 是 负数 来 处 理 。 而 进位 标志 位 和 溢出 标志 位 的 使 用 对 于 将 操作 
数 当做 有 符号 数 或 无 符号 数 也 是 有 区 别 的 ， 如 果 处 理 的 是 有 符号 数 ， 则 溢出 标志 位 十 分 重要 ， 而 如 果 处 理 


的 是 无 符号 数 ， 则 需要 考虑 进位 标志 位 。 更 多 讨论 可 以 参考 2.4 节 的 内 容 。 


在 第 4 个 时 钟 周期 末尾 ,第 1 条 指令 已 经 执行 并 且 条 件 标志 位 被 更 新 。 注 意 到 第 2 条 指令 此 时 








已 经 进入 流水 线 ， 虽然 此 时 并 不 知道 这 条 指令 是 否 应 该 执行 ， 但 是 还 是 允许 它 进 入 流水 线 并 阻塞 流 
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水 线 直 到 第 1 条 指令 执行 完毕 。 在 一 些 处 理 吕 中， 会 使 用 预测 执行 (speculative execution) 来 加 载 | 
和 处 理 第 2 条 指令 。 一 旦 条 件 标志 位 确定 ， 就 会 决定 是 否 中 断 第 2 条 指令 或 让 它 继续 执行 。 182 
我 们 继续 填写 预约 表 ， 同 时 假设 第 1 条 指令 结果 不 为 0， 则 第 2 条 指令 不 需要 执行 (或 者 即 

使 执行 但 是 结果 也 将 被 丢弃 ) 。 
取 指 ADDS RO ANDEQ RI1 指令 3 指令 4 指令 5 指令 6 
译 码 ADDS RO ANDEQ RI1 指令 3 指令 4 指令 5 
取 操 作 数 ADDS RO ANDEQ RI 前 令 3 指令 4 
执行 指令 ADDS RO X 指令 3 
写 回 ADDS RO X 
时 钟 周期 1 2 3 4 5 6 
NZCV 0000 0000 0000 0000 0000 0000 
由 于 零 标志 位 在 第 5 个 时 钟 周 期 没有 被 置 ] ， 因 此 移 除 第 2 条 指令 并 以 NOP 指令 代替 。 这 导 
致 了 预约 表 中 一 整 条 对 角 线 资源 的 浪费 。 相 较 而 言 ， 如 果 流 水 线 在 等 待 至 第 5 个 时 钟 周期 第 1 条 
指令 完成 后 再 取 下 一 条 指令 ， 则 将 会 浪费 3 条 对 角 线 的 资源 。 
至 此 ， 读 者 应 该 会 有 疑问 : 流水 线 还 需要 什么 样 的 额外 部 件 才 能 够 支持 预测 执行 ? 对 于 预测 
执行 ， 在 框 5.5 中 会 有 简要 的 说 明 ， 深 入 讨论 将 等 到 5.7 节 进 行 。 
5.2.6 条 件 分 支 
ARM 处 理 器 有 一 个 指令 集 ， 里 边 的 大 部 分 指令 都 是 带 有 条 件 操作 的 。 然 而 ， 对 于 大 多 数 处 
理 器 来 说 ， 它 们 的 条 件 操 作 只 有 条 件 分 支 ， 用 来 改变 程序 的 指令 流 。 以 下 是 一 个 条 件 分 支 的 
例子 : 
loop: MOV R1, #5 :l=5 
AND R4, R3, R1  ;R4=R3 ANDRI 
SUBS R2, RO, R1 ;7R2=RO-RI 
BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 
其 中 重要 的 一 行为 BGT ( 如果 条 件 标志 位 大 4 : 
于 0 则 分 支 ) 和 它 之 前 设置 这 个 条 件 标 志 位 的 行 。 i 
很 明显 ， 在 SUBS 指令 结束 并 且 更 新 条 件 标志 位 以 图 5.5 一 条 简 音 的 三 级 流水 线 流程 图 。 该 流 
前 ， 无 法 知道 分 支 是 否 应 该 发 生 。 水 线 将 取 指 和 译 码 放 在 同一 阶段 并 且 
假设 上 述 程序 在 一 个 只 有 三 级 的 流水 线 上 执 没有 专用 于 取 操 作 数 的 阶段 183 


行 ， 如 图 5-5 所 示 。 
我 们 使 用 这 条 流水 线 在 以 下 预约 表 中 “执行 ”操作 序列 ( 到 分 支 处 为 止 )。 

















取 指 和 译 码 | MOV AND SUBS 
执行 指令 “| MOV | AND 
写 国 | MOV 
时 钟 周期 | 1 |2 3 
































在 第 5 个 时 钟 周 期 ，SUBS 的 结果 确定 了 ， 条 件 标志 位 被 更 新 ， 因 而 执行 分 支 指令 。 如 此 ， 
下 一 条 指令 在 第 6 个 时 钟 周期 才能 被 正确 取 指 ， 但 造成 了 流水 线 一 条 对 角 线 资源 的 浪费 : 
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取 指 和 详 码 MOV AND SUBS BGT 其 NOT 

执行 指令 MOYV AND SUBS BCT xX NOT 

写 MOV AND SUBS BGT X NOT 

时 钟 周期 2 3 4 5 6 7 8 9 



































为 了 减少 这 种 浪费 ， 如 在 5. 2. 5 节 中 所 提 到 的 ， 一 些 处 理 器 会 采用 预测 执行 。 这 意味 着 将 直 
接 对 NOT 这 条 指令 进行 取 指 。 如 果 分 支 发 生 ， 则 将 NOT 指令 从 流水 线 中 清除 ; 如 果 未 发 生 ， 热 
行将 继续 执行 。 以 下 是 分 支 预 测 且 预测 错误 的 预约 表 : 




















取 指 和 详 码 MOV AND SUBS BCT NOT MOV 

执行 指令 MOV AND SUBS BCT NOT MOV 
与 回 MOV AND SUBS BCT | X MOV 

时 钟 周 其 1 2 | 3 4 5 6 | 7 8 | 9 


























分 支 预测 当然 不 会 总 是 预测 正确 ; 当 预 测 正确 时 ， 流 水 线 满 效率 工作 ; 但 是 当 预 测 错 误 时 ， 
效率 会 降低 ， 但 这 并 不 会 比 不 带 分支 预 测 的 时 候 差 。 在 现代 处 理 器 中 ， 都 带 有 一 些 奇怪 但 是 十 分 
先进 的 技术 来 提高 分 支 预测 使 件 的 正确 性 〈 详 见 框 5.4) 。 

分 支 预测 

对 于 支持 分 支 预测 的 处 理 器 ， 它 们 总 是 去 预测 该 执行 分 支 或 者 不 该 执行 分 支 。 正 确 的 预测 将 不 会 降低 
处 理 器 的 效率 ， 而 错误 的 预测 则 会 浪费 处 理 器 一 些 时 钟 周期 。 

对 于 一 些 处 理 器 ， 它 们 的 预测 总 是 不 变 的 ， 比 如 不 分 支 。 这 样 编译 器 将 代码 优化 为 不 分 支 比分 支 多 ， 
从 而 提高 处 理 器 的 性 能 。 

而 更 智能 的 处 理 器 则 会 记录 之 前 条 件 分 支 执行 的 结果 。 如 果 之 前 执行 结果 分 支 比 不 分 支 多 ， 则 预测 后 
续 的 条 件 分 支 执行 为 分 支 ; 反之 为 不 分 支 。 这 就 是 所 谓 的 全 局 预测 器 (global predictor)。 更 先进 的 硬件 则 
会 对 不 同 的 分 支 分 别 记 录 ， 或 者 是 使 用 类 似 于 cache 的 32 位 或 64 位 记录 器 对 低 5 位 或 低 6 位 地 址 相同 的 分 
支 统 一 记录 ， 这 就 是 局 部 预测 器 (local predictor) 。 

而 最 复杂 的 预测 器 包含 了 一 个 全 局 预测 器 和 多 个 局 部 预测 器 ， 它 具有 极 高 的 预测 率 。 这 是 以 性 能 为 目 
标的 研究 领域 ， 到 目前 为 止 ， 最 优 的 预测 率 还 是 由 编译 器 和 硬件 来 协同 获得 。 

我 们 将 在 5.7 节 对 此 进行 更 深入 的 讨论 ， 在 框 5.5 中 先 给 出 一 个 简单 预测 器 硬件 的 例子 。 
预测 执行 

近 几 年 来 ， 各 种 预测 执行 被 开发 出 来 ， 尤 其 是 基于 IBM 的 分 割 流水 (split-pipeline)， 它 对 条 件 分 支 的 
两 个 分 支 分 别 在 两 条 独立 的 流水 路 径 上 同时 执行 。 一 旦 分 支 条 件 确定 ， 则 会 丢弃 错误 的 路 径 。 显 然 ， 由 于 
将 不 同 分 支 独 立 开 来 ， 这 种 机 制 并 不 会 损失 处 理 器 的 效率 ， 但 是 会 增加 硬件 的 开销 。 

框 5.4 中 所 提 到 的 分 支 预 测 中 所 描述 的 “可 能 性 跳 转 ”模型 的 能 力 稍 弱 ， 它 记录 过 去 条 件 分 支 指令 的 
执行 、 结 果 ， 并 将 在 5.7 节 中 进行 更 深入 的 讨论 。 

尽管 一 些 非 常 先进 的 硬件 预测 机 制 被 提出 ， 大 多 数 分 支 预测 系统 都 是 使 用 固定 的 分 支 路 径 即 “总 是 执 
行 分 支 ” 或 “总 是 不 执行 分 支 "。 编 译 器 需要 注意 这 种 特点 ， 它们 可 以 通过 改变 代码 的 顺序 来 最 大 化 发 挥 
处 理 器 预测 的 正确 性 。 目前 已 经 有 很 多 这 方面 的 研究 在 继续 进行 。 


5. 2.7 编译 时 流水 线 补偿 


在 我 们 讨论 分 支 补偿 之 前 ， 还 存在 一 个 问题 ， 即 由 流水 线 阻 塞 引起 的 效率 下 降 。 这 个 问题 与 
流水 线 的 构造 和 长 度 有 关 ， 但 先 来 看 看 这 两 者 之 间 的 关系 。 

在 现代 处 理 器 中 ,三 级 流水 的 流水 线 相当 少 ， 更 多 的 是 七 级 、 八 级 ， 甚 至 更 多 级 的 流水 线 ， 
并 且 流 水 线 往往 十 分 复杂 。 在 前 面 的 三 级 流水 线 例 子 中 的 对 角 线 资源 浪费 ， 成 为 七 级 流水 线 的 
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一 大 难题 ， 严 重 影响 了 处 理 器 的 性 能 和 效率 。 也 许 这 也 就 是 为 什么 近 些 年 来 人 们 仍旧 会 花费 大 
量 时间 和 精力 来 研究 流水 线 的 原因 。 

用 于 提高 流水 线性 能 的 编译 时 策略 涉及 范围 很 广 ， 从 最 微小 的 细节 到 高 度 复杂 的 整体 。 为 
了 展示 其 中 一 种 普通 但 却 十 分 有 效 的 方法 ， 考 虑 5. 2.6 节 提 到 的 那个 例子 的 代码 : 


loop: MOV R1, #5 ;RI1=5 
AND R4, R3, RL ;R4=R3 AND RI 
SUBS R2, RO, R1 ;:R2=RO-R1 
BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 


这 段 代 码 的 问题 在 于 取 指 后 续 指 令 之 前 ， 不 能 确定 条 件 分 支 指令 是 否 应 该 执行 分 支 ， 所 以 
必须 等 待 分 支 结果 出 来 后 再 取 指 或 者 是 预测 取 指 。 

但 对 于 这 种 情况 ， 我 们 可 以 调整 一 下 代码 的 顺序 ， 使 得 条 件 设 置 指令 (SUBS) 和 条 件 指令 
(BGT) 之 间 稍 微 有 些 空 阶 ， 如 下 所 示 : 


loop: MOV R1, #5 :R1=5 
SUBS R2, RO, R1 ;R2=RO-R1 
AND R4, R3, R1 ;R4=R3 AND R1 
BGT loop ;如 果 结 果 为 正则 分 支 
NOT R3, R4 


在 这 个 例子 中 ， 打 乱 代码 的 顺序 并 不 影响 程序 的 最 后 结果 (因为 SUBS 的 结果 对 于 AND 的 
执行 并 不 造成 任何 影响 ) 。 我 们 来 看 看 预约 表 : 








取 措 和 译 码 | MOV 








执行 指令 








写 回 

















时 钟 周期 | 1 








无 论 是 否 执行 分 支 ，SUBS 指令 都 会 在 第 3 个 时 钟 周 期 的 来 尾 更 新 条 件 标志 位 ， 而 条 件 分 支 
语句 只 需要 在 第 5 个 时 钟 周期 前 得 到 条 件 标志 即 可 。 由 此 ， 在 条 件 标志 位 改变 和 条 件 分 支 之 间 有 
充足 的 时 间 ， 不 需要 等 待 条 件 标志 位 发 生 改 变 ， 使 得 流水 线 的 执行 能 保持 高 效 和 连贯 。 

这 种 改变 代码 来 适应 流水 线 的 方法 对 于 其 他 冒险 如 数据 改变 冒险 、 模 式 改 变 冒 险 也 有 效 。 
当 编译 器 无 法 打 乱 代码 顺序 时 〈 例 如 两 个 连续 的 分 支 或 存在 大 量 的 相关 性 ) ， 编 译 器 会 插 人 一 些 
NOP 指令 ， 或 假设 流水 线 会 足够 智能 地 自动 阻塞 一 些 时 钟 周 期 来 保证 流水 线 执行 的 正确 性 。 虽 
然 一 些 早 期 的 流水 线 要 依赖 于 编译 器 或 编程 人 员 加 入 NOP 指令 来 保证 流水 线 执 行 的 正确 性 ， 但 
对 于 现代 处 理 右 来 说 这 种 假设 是 可 行 的 。 


5.2.8 相对 地 址 分 支 


观察 之 前 讨论 过 的 预约 表 ， 可 以 看 到 不 同 的 流水 线 级 是 由 不 同 的 功能 单元 组 成 的 。 预 约 表 
可 以 指出 这 些 功能 单元 什么 时 候 在 工作 。 

执行 级 包含 了 ALU (与 FPU 的 最 大 区 别 在 于 ALU 里 边 都 是 单 周期 数值 计算 器 ， 而 FPU 通常 
都 需要 多 周期 执行 ) ， 给 人 的 第 一 感觉 是 在 分 支 指令 中 并 没有 使 用 ALU。 然 而 ， 当 分 支 指令 需要 
计算 目标 地 址 时 ， 就 需要 用 ALU 来 做 这 些 运 算 ， 这 就 是 相对 地 址 分 支 的 一 种 情况 。 相 对 地 址 分 
支 指 通过 向 前 或 向 后 移动 一 些 地 址 完成 分 支 ( 详 见 框 5.6 和 参考 第 3 章 ) 。 这 种 分 支 与 程序 计数 
器 (PC) 有 关 。 它 需要 将 一 个 指定 的 偏 移 量 加 上 PC 值 ， 然 后 将 结果 设置 为 PC 的 新 值 。 
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相对 地 址 分 支 

在 ARM 处 理 器 中 ， 指 令 都 是 32 位 的 (地 址 线 和 数据 线 也 是 32 位 的 ， 而 早期 ARM 处 理 器 的 地 址 线 是 
26 位 的 )。 假 设 32 位 的 地 址 线 可 以 指定 任意 一 条 指令 如 分 支 指令 的 地 址 ， 并 且 为 了 指定 所 有 的 地 址 ， 地 址 
线 的 32 位 全 部 需要 使 用 。 

由 此 ， 对 于 分 支 指令 来 说 不 可 能 32 位 全 部 用 来 存放 地 址 信息 ， 因 为 每 条 指令 都 需要 一 些 位 来 指出 其 
他 的 信息 (如 指出 分 支 指令 类 型 、 分 支 条 件 等 )。 因 此 ，ARM 处 理 器 不 使 用 全 地 址 编码 ， 而 使 用 相对 
地 址 。 
因此 ， 存 放 在 分 支 指令 中 的 值 是 一 个 偏 移 量 ， 需 要 与 当前 程序 计数 器 (PC) 的 内 容 相 加 才能 得 到 分 支 
的 目标 《branch target) 地 址 。 

事实 上 ，ARM 处 理 器 把 分 支 指令 的 偏 移 量 当成 24 位 有 符号 数 。 还 记得 地 址 都 是 按 字 节 计算 的 吧 ， 但 
对 于 指令 都 是 4 字 节 的 。 如 果 所 有 的 指令 都 是 按 4 字 节 地 址 (如 0、4、8、12、1004 等 ) 对 齐 的 ， 则 任何 
分 支 目标 地 址 的 最 低 两 位 都 将 为 0， 所 以 这 两 位 不 需要 存放 在 指令 中 。 

换 句 话说， 这 24 位 数字 指定 的 是 目标 地 址 与 当前 PC 值 前 后 相距 多 少 条 指令 ， 而 不 是 相距 多 少 字 节 。 
这 是 一 个 +/-32MiB 的 范围 : 已 经 大 大 超出 了 ARM 早期 处 理 器 设计 时 台式 计算 机 512KiB 内 存 容量 的 范 
围 ， 但 对 比 今天 的 计算 机 则 小 很 多 。 

事实 上 ， 这 种 分 支 指令 需要 像 加 法 指令 一 样 执行 加 法 操作 : 

ADD PC, PC, #24 
将 向 前 移动 24 字 节 地 址 。 与 之 类 似 : 

ADD PC, PC, #-18 
将 向 后 移动 18 字 节 地 址 。 再 来 看 看 之 前 的 预约 表 ， 很 明显 ， 当 一 个 相对 地 址 分 支 指令 出 现时 ， 
不 管 条 件 执行 与 否 ， 处 理 器 都 需要 等 待 分 支 指令 完成 执行 级 的 操作 从 而 得 到 下 一 条 指令 的 地 址 
后 ,才能 对 下 一 条 指令 进行 取 指 。 例 如 : 























ADD R2, RO, R1 ; R2=RO+RI 
B +24 ; 向 前 跳 24 字 节 地 址 
NOT R3, R4 ; R3 =NOT R4 
(分 支 指 令 后 24 字 节 ) 
SUB R1, RO, RI1 ; R2=RO-RI 
使 用 三 级 流水 线 来 执行 以 上 代码 的 预约 表 如 下 : 
取 指 和 译 码 | ADD B x | SUB 
执行 指令 ADD B X SUB 
与 回 ADD B Xx SUB 
时 钟 周 期 1 2 | 3 | 4 5 6 | 7 8 9 




















这 个 冒险 有 涉及 流水 线 的 效率 问题 。 即 使 一 个 分 支 不 是 条 件 性 执行 ， 而 是 相对 地 址 分 支 ， 流 
水 线 也 必须 阻塞 。 对 此 有 两 种 解决 方法 ， 一 种 方法 是 为 相对 地 址 分 支 额 外 增加 一 个 单独 的 ALU; 
另 一 种 方法 将 在 下 一 节 讨 论 。 


5.2.9 流水线 的 指令 集 补偿 


由 于 编译 器 可 以 通过 改变 代码 顺序 (如 5.2.7 节 中 所 讨论 的 ) 来 分 开 条 件 设置 指令 和 条 件 
分 支 指令 ， 因 此 也 可 以 向 指令 集 加 入 这 种 机 制 。 如 在 一 些 早 期 的 MIPS 处 理 右 和 比较 老 的 本 的 
DSP 处 理 中 的 延迟 分 支 (delayed branch) 指令 。 
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延迟 分 支 操作 是 将 分 支 延迟 一 定 的 周期 后 再 执行 ， 所 延迟 的 周期 足够 解决 由 相对 地 址 分 支 
或 由 于 条 件 设置 指令 和 条 件 分 支 距离 太 近 而 引起 的 任何 问题 。 在 作者 个 人 看 来 ， 延 迟 分 支 操作 
需要 由 汇编 程序 员 来 实现 ， 通 过 对 所 提 到 的 两 种 处 理 器 编写 代码 ， 作 者 已 经 意识 到 有 时 需要 忽 
视 延迟 分 支 机 制 所 带 来 的 性 能 提升 ， 在 延迟 分 支 指令 后 加 入 两 条 NOP 指令 来 确保 安全 。 正 如 我 
们 所 看 到 的 ， 由 于 观察 不 到 延迟 从 而 产生 的 诡异 代码 将 对 优秀 程序 员 产 生 极 大 的 挑战 。 以 下 是 
延迟 分 支 的 代码 例子 : 


loop: MOV R1, #5 7 及 1=5 
SUBS R2, RO, R1 ;R2=RO-R1 
BGTD loop 条件 分 支 ， 需 要 延迟 执行 
AND R4, R3, R1 ;R4=R3 AND R1 
NOT R3, R4 ;R3=NOT R4 


NOP 


与 之 前 的 一 些 例 子 一 样 ， 里 边 存在 一 个 条 件 分 支 ， 同 时 也 是 一 个 相对 地 址 分 支 。 汇 编 器 会 把 
“BGTD loop” 翻译 成 “BGTD -2”， 因 为 循环 标志 是 在 分 支 指令 的 前 两 条 指令 上 ， 在 运行 时 ， 如 
果 分 支 执 行 ， 则 处 理 器 将 执行 PC = PC -2。 

由 于 分 支 需 要 延迟 执行 ， 所 以 需要 知道 被 延迟 多 少 条 指令 ， 这 些 信息 在 指令 集 的 细节 中 可 
以 找到 。 假 设 分 支 被 延迟 两 条 指令 后 执行 ， 这 意味 着 分 支 不 会 发 生 在 包含 BGTD 这 条 指令 的 这 一 
行 ， 而 是 发 生 在 这 条 指令 后 的 第 2 行 ， 即 NOT 和 NOP 之 间 。 让 我 们 观察 如 表 5-1 所 示 的 预约 表 。 


表 5-1 预约 表 截取 了 延迟 分 支 例 子 的 12 个 时 钟 周期 








取 指 和 译 码 | MOV 
执行 指令 


时 钟 周期 














在 这 12 个 时 钟 周期 里 ， 循 环 执行 了 两 次 。 在 第 一 次 循环 中 〈 加 粗 表示 ) ， 分 支 执行 ， 而 在 
第 二 次 循环 中 ， 分 支 没有 执行 。 在 第 3 个 时 钟 周 期 首次 遇 到 分 支 指令 时 ， 处 理 器 将 它 取 人 流水 线 
中 ， 并 由 于 是 条 件 分 支 ， 需 要 等 待 前 一 条 条 件 设 置 指令 (SUBS) 结束 。 虽 然 执 行 了 分 支 ， 但 是 
分 支 之 后 的 两 条 指令 (AND 和 NOT) 也 被 取 和 人 流水 线 中 ， 而 直到 第 6 个 时 钟 周 期 分 支 才 执 行 ， 
此 时 PC 被 设置 为 “Ioop” 循 环 标志 所 在 的 指令 MOV 的 地 址 。 

第 二 次 循环 执行 了 与 第 一 次 相同 的 指令 序列 ， 但 由 于 此 时 不 执行 分 支 ， 因 此 在 NOT 后 的 指 
令 由 NOP 取代 了 MOV。 

由 于 这 个 分 支 是 相对 地 址 分 支 ， 所 以 第 一 次 循环 的 BGTD 在 第 4 个 周期 进入 执行 阶段 (使 用 
ALU 计算 分 支 的 目标 地 址 ) ， 使 得 能 够 及 时 向 PC 提供 分 支 的 目标 地 址 ， 从 而 在 分 支 后 的 指令 在 
第 6 个 周期 能 被 正确 取 指 。 

预约 表 中 没有 足够 的 空间 以 全 效率 地 指定 不 同 分 支 类 型 (条 件 分 支 或 非 条 件 分 支 ， 相 对 地 
址 分 支 或 绝对 地 址 分 支 ) 。 

对 于 汇编 程序 员 而 言 必 须 记 住 的 是 分 支 指令 后 的 AND 和 NOT 两 条 指令 ， 不 管 分 支 是 否 执行 
它们 都 会 被 执行 。 一 般 情况 下 为 了 避免 混淆 ， 会 用 NOP 指令 来 替代 : 

BD 日 标 地 址 

NOP 

NOP 


这 种 方式 会 帮助 低层 次 的 编程 人 员 记 住 分 支 是 延迟 执行 的 ， 但 是 这 种 代码 在 效率 上 会 带 来 
损失 ， 而 编译 器 会 自动 注意 到 延迟 分 支 这 种 特性 。 
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5. 2. 10 ”运行 时 流水 线 补 偿 


再 回去 看 看 在 5.2.4 节 中 讨论 的 写 后 写 (WAW)、 先 读 后 写 (RAW) 以 及 先 写 后 读 
(WAR) 冒险 , 虽然 大 部 分 流水 线 处 理 器 能 够 在 运行 时 自动 处 理 这 些 冒 险 而 不 需要 编译 器 干预 ， 
但 这 些 冒 险 其 实 是 可 以 被 编译 器 处 理 掉 的 。 而 那些 使 用 运行 时 方法 来 处 理 这 些 冒 险 的 处 理 器 是 
非常 复杂 的 。 

如 果 0(i) 是 受 指令 影响 的 输出 地 址 集合 〈 包 括 寄 存 器 、 内 存 地 址 以 及 条 件 标志 ) ，7(7) 

影响 指令 j 的 输入 地 址 集合 ， 那 么 指令 i 和 指令 j 之 间 的 冒险 存在 这 样 的 关系 : 

对 于 RAW 冒险 有 : 0( 外 几 1(j)! = 名 

对 于 WAR 冒险 有 : I(i) 0())!= 儿 

[190] 对 于 WAW rE O(NON!=G 

一 般 而 言 ， 这 些 冒 险 都 可 以 通过 转发 ( 取 指 - 取 指 ， 写 回 - 写 回 ， 写 回 - 取 指 ) 来 解决 。 
我 们 来 看 一 i 本 

ADD R2, RO, R3 ; R2=RO+R3 

AND R1, R2, #2 ;RI=R2 AND 2 


在 R2 上 存在 冒险 ,在 第 2 条 指令 读 之 前 它 必 须 被 第 1 条 指令 写 入 在 一 条 足够 长 的 流水 线 
上 是 存在 的 ) 。 然 而 ， 我 们 可 以 想象 在 硬件 中 有 一 条 额外 的 路 径 ， 将 第 1 条 指令 的 输出 直接 送 到 
第 2 条 指令 的 输入 ， 如 图 5-6 所 示 ， 只 需 在 将 结果 写 回 给 R2 的 同时 ， 在 执行 单元 (EX) 增加 一 
条 路 径 ， 将 输出 送 回 给 其 中 一 个 输入 。 这 种 方式 高 效 地 传递 了 写 回 级 的 数据 ， 在 数学 上 与 下 面 的 
转换 等 效 : 


R2 = RO+R3;RL=R2&k&2 一 R1I =(RO + R3) & 2; R2 = RO + R3 


rT 本 
转发 前 面 指令 ‘R2) 的 结果 


图 5-6 一 条 四 级 流水 线 示意 图 。 它 将 指令 执行 的 结果 直接 转发 至 执行 单元 的 输入 以 
作为 下 一 条 指令 的 输入 ， 而 不 需要 首先 将 结果 存 回 目标 寄存 器 R2 


转发 还 可 以 提高 执行 的 速度 ， 例 如 通过 提高 使 用 片上 寄存 器 的 比例 ,减少 读 写 片 外 存储 的 
次 数 。 来 看 以 下 给 出 的 例子 : 








LDR RO, [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 RO 
ADD R2, RO, R3 ;R2=RO+R3 
LDR R1, [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 R1 
ADD R3, R2, R1 ;R3=R2+R1 
可 以 改写 成 : 

LDR R1, [#0x1000] ;从 内 存 地 址 0x1000 读 数据 到 R1 
ADD R2, R1, R3 ;R2=R1+R3 

191 ADD R3, R2, R1 ;R3=R2+R1 





这 个 取 指 - 取 指 转发 〈feteh-fetch forwarding) 例子 提高 了 25% 的 执行 速度 ， 而 不 需要 在 编译 时 
或 运行 时 进行 任何 优化 。 写 回 - 写 回 转发 《store-store forwarding) 也 会 在 读 内 存 时 产生 类 似 的 效果 。 
需要 注意 的 是 ,一般 情 况 下 多 次 读 写 还 包含 了 与 内 存 映 射 外 设 (memory- mapped peripheral ) 
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的 通信 ， 如 UARTS ， 它 会 出 现 对 一 个 相同 的 地 址 〈 如 串 行 字 节 输 出 寄存 器 ) 进行 多 次 写 的 情况 ， 
如 果 是 RAM， 这 种 写 操作 就 会 造成 浪费 。 在 C 语言 中 ， 这 种 地 址 指针 需要 用 关键 字 “volatile” 
声明 以 避免 编译 器 将 其 优化 掉 (原因 可 以 参考 7. 8. 3 节 ) 。 一 个 智能 (或 拥有 良好 内 存 组 织 ) 的 
处 理 器 会 检测 到 这 种 特殊 的 地 址 不 在 正常 内 存 地 址 范围 内 ， 从 而 不 进行 这 种 优化 。 

以 下 人 工 编制 的 代码 段 给 出 了 一 个 最 终 的 数据 转发 例子 : 


指令 ] LDR RO, [m1] ;从 内 存 地 址 m1 取 数 据 放 入 RO 
指令 2 ADD RO, RO, [m2] ;RO0=R0+ 内 存 地 址 m2 的 内 容 
指令 3 MUL RO, RO, [m3] ;RO0=RO x 内 存 地 址 m3 的 内 容 
指令 4 STR RO, [m4] ;将 RO 的 内 容 存 到 内 存 地 址 m4 上 


图 5-7 的 上 半 部 表示 了 这 段 代码 ， 代 码 中 的 操作 涉及 了 8 个 数据 的 传输 ; 而 在 图 的 下 半 部 
对 这 上段 代码 进行 了 优化 ， 只 涉及 5 个 数据 的 传输 。 在 两 种 情况 下 ， 传 输 所 归属 的 指令 都 已 经 标 出 。 
对 于 两 个 图 示 的 操作 ， 所 得 到 的 结果 是 一 致 的 ， 并 且 原 始 代 码 也 相同 ,但 是 执行 的 速度 和 资源 的 利用 
差别 很 大 。 在 运行 时 ， 转 发 的 原则 是 最 小 化 时 间 消 耗 以 及 数据 传输 资源 的 使 用 ， 以 此 来 提高 执行 的 
速度 。 






2b 


人 8 个 数据 需要 传输 
5 个 数据 需要 传输 


图 5-7 一 个 执行 简单 算术 运算 的 例子 。 上 部 没有 采用 数据 转发 ， 而 下 部 采 
用 数据 转发 减少 了 内 存 读 取 的 操作 


运行 时 补偿 的 缺点 是 : 需要 额外 的 硬件 支持 ， 导 致 功 耗 、 面 积 增加 ， 由 此 提高 了 每 个 处 理 器 
的 价格 。 然 而 ， 单 纯 从 性 能 上 考虑 ， 或 者 需要 考虑 向 后 兼容 性 时 ， 除 去 编译 时 加 速 的 方法 外 ， 运 
行 时 方法 是 合适 的 。 


5. 3 复杂 指令 集 (CISC) 和 精简 指令 集 (RISC) 

3.2.6 节 介绍 了 RISC 和 CISC 体系 结构 的 对 比 ， 并 将 RISC 处 理 器 作为 处 理 方式 发 展 的 峰 峰 。 
RISC 处 理 器 起 源 于 一 个 简单 的 控制 单元 ， 然 后 逐渐 转向 微 指 令 ， 最 终 将 微 指令 ( 精简 指令 ) 运 
用 到 整个 CPU 上 ， 从 而 形成 了 RISC 体系 结构 。 

由 此 ，RISC 处 理 器 广义 上 指 的 是 那些 比 普通 处 理 器 指令 少 且 指 令 简单 的 处 理 器 。 一 般 公认 
100 条 指令 是 RISC 处 理 器 的 上 限 。 然 而 ， 从 RISC 处 理 器 问世 至 今 经 过 了 这 么 多 年 的 发 展 ，RISC 
处 理 器 更 多 的 特征 显现 出 来 ， 需 要 注意 的 是 ， 抛 开 硬件 实现 和 速度 的 条 条 框框 ， 这 些 特征 大 多 是 
来 源 于 设计 公司 的 市 场 部 门 : 

。 单 周 期 执行 一 一 所 有 的 指令 都 在 一 个 时 钟 周期 内 完成 。 这 不 仅仅 可 以 降低 处 理 器 设计 的 

难度 ， 提 高 指令 集 的 规整 度 ， 还 减少 了 中 断 的 响应 时 间 (将 在 6.5 节 讨论 )。 实 际 中 ， 








昌 UART: 通用 异步 收发 器 ( Universal Asynchronous Receiver/Transmitter) ， 通 常 称 为 串口 (serial port ) 。 
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许多 RISC 处 理 器 都 对 这 一 点 有 所 放宽 ， 例 如 在 ARM 体系 结构 上 ， 存 / 取 指 令 (STM/ 
LDM) 需要 多 个 周期 来 完成 。 
肯 令 不 需要 解释 一 一 这 是 指 指令 执行 不 需要 片上 解释 器 ， 因 为 每 一 条 指令 都 与 处 理 器 上 
一 个 特定 的 物理 硬件 直接 关联 。 
。 指令 集 规整 一 一 观察 一 个 普通 CISC 处 理 器 的 指令 集 可 以 发 现 ， 指 令 间 极 少 存在 共性 。 不 
同 指令 的 相同 位 域 往往 意味 着 完全 不 同 的 内 容 。 有 些 指令 可 以 访问 一 个 寄存 器 ， 而 有 些 
则 不 行 。 这 些 都 会 加 大 汇编 人 员 编 程 的 难度 ， 同 时 也 增加 了 片上 译 码 单元 的 面积 。 相 反 ， 
193 RISC 处 理 器 拥有 一 套 十 分 规整 的 指令 集 ， 指 令 译 码 简单 得 多 。 
。 规整 的 寄存 器 和 总 线 一 一 有 助 于 指令 集 规整 的 一 个 方法 是 保持 一 个 (最 好 大 一 些 ) 独立 
的 寄存 器 组 ， 这 些 寄 存 器 需要 有 相同 的 数据 范围 和 操作 方法 。 在 CISC 处 理 器 中 ,为 了 弄 
清楚 如 何 使 用 最 少 的 指令 在 不 同 的 功能 单元 之 间 传 送 数据 ， 需 要 能 观测 到 内 部 总 线 结构 。 
而 这 对 于 RISC 处 理 器 则 变 得 非常 简单 : 只 要 一 个 寄存 器 可 以 “看 到 ”一 个 数据 ， 那 么 
其 他 所 有 的 寄存 器 都 能 “看 到 ”这 个 数据 。 
。 存 / 取 体系 结构 一 一 由 于 内 存 比 寄存 器 慢 得 多 ， 因 此 通常 很 难 做 到 在 一 个 很 快 的 时 钟 周 
期 内 从 一 个 内 存单 元 取 数 ， 对 这 个 数 做 运算 ， 然 后 再 将 结果 存 回 内 存 中 。 事 实 上 ， 避 免 
内 存 访 问 成 为 瓶颈 的 最 好 方法 是 ， 保 证 在 发 生 一 个 外 部 存 / 取 操作 时 ， 没 有 其 他 导致 指令 
执行 变 慢 的 动作 发 生 。 因 此 ， 就 应 该 分 别 有 一 条 指令 进行 读 操 作 以 及 一 条 指令 进行 写 操 
作 ， 而 所 有 的 数据 操作 都 只 发 生 在 寄存 器 上 或 是 只 有 立即 数 。 
正如 前 文 所 述 ， 没 有 统一 定义 什么 是 RISC 什么 是 CISC， 并 且 许 多 现代 处 理 器 的 设计 都 同时 
采用 了 二 者 的 设计 思想 。 


5. 4 超标 量 体 系 结构 


随 着 以 性 能 为 主导 的 流水 线 技术 的 发 展 ， 除 了 RISC 所 带 来 的 简洁 性 外 ， 流 水 线 的 复杂 度 在 
不 断 提高 。 现 在 的 研究 大 部 分 涉及 多 功能 动态 流水 线 ， 并 且 包 含 了 更 多 用 户 自 定义 的 特殊 指令 ， 
伴随 而 来 的 是 控制 复杂 度 的 提高 。 

伴随 流水 线 复杂 度 提 高 的 还 有 冒险 的 增加 ， 由 此 冒险 的 检测 和 运行 时 冒险 的 解决 变 得 越 来 
越 重要 。 这 些 都 显著 地 提高 了 流水 线 管理 对 硬件 资源 的 要 求 。 


5.4.1 简单 超标 量 


解决 不 断 增 加 的 流水 线 复 杂 度 有 这 样 一 种 方案 ， 流 水 线 仍 旧 按 照 简 单线 性 布局 ， 但 在 执行 
级 含有 多 个 功能 单元 。 如 此 ， 指 令 仍旧 以 串 行 顺序 执行 ， 但 在 执行 级 会 经 过 不 同 的 路 径 。 
通常 情况 下 ， 执 行 级 是 流水 线 上 最 耗 时 的 部 分 ， 而 最 耗 时 的 部 分 则 称 为 流水 线 的 瓶颈 。 由 此 ， 
在 一 个 超标 量 流水 线 系统 上 ， 取 指 单元 会 以 比 执行 级 上 任何 单个 执行 单元 吞吐 率 都 高 的 速率 将 指令 
[94] 发 送 到 流水 线 中 ， 执 行 单元 的 多 个 副本 将 会 轮流 处 理 指令 。 图 5-8 展示 了 这 样 一 个 五 级 流水 线 。 








图 5-8 一 个 五 级 超标 量 流水 线 的 示意 图 ， 其 执行 级 带 有 多 个 功能 单元 
这 种 方法 最 先 在 DSP 上 采用 ， 其 含有 多 个 乘 累 加 单元 (MAC) ,但 这 种 方法 只 有 在 通用 CPU 
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上 采用 时 才 被 正式 地 称 为 超标 量 。 

如 图 5-8 所 示 ， 这 条 超标 量 流水 线 加 入 了 浮 点 运算 单元 (FPU)。FPU 的 缺点 是 ， 将 它 放 在 
一 条 线性 流水 线 上 (有 固定 的 指令 时 钟 频率 ) 会 严重 影响 处 理 器 的 速度 。 但 对 于 超标 量 处 理 器 ， 
发 送 至 FPU 的 指令 可 以 与 其 他 如 ALU 的 指令 、 乘 法 单元 的 指令 等 并 行 执行 。 目 前 新 研制 的 超标 
量 处 理 器 通常 包含 8 个 ALU 和 16 个 MAC, 或 者 是 多 个 ALU 和 4 个 FPU。 

如 表 5-2 所 示 的 预约 表 是 超标 量 流水 线 的 一 个 例子 。 该 流水 线 包 含 1 个 取 指 和 译 码 单 元 ， 每 
个 时 钟 周 期 发 出 一 条 指令 。 指 令 被 发 送 至 4 个 功能 单元 (2 个 ALU、1 个 FPU 和 1 个 MUL (乘法 
单元 ) ) 。 流 水 线 末 端 由 1 个 写 回 单元 结束 。 观 察 表 5-2， 可 以 注意 到 取 指 单元 发 送 指令 的 速度 比 
流水 线 执行 级 上 任何 单元 处 理 指令 的 速度 都 快 ， 并 且 相 比 指令 输入 顺序 ， 写 回 单元 可 以 乱 序 执 
行 。 并 不 是 所 有 的 处 理 器 都 支持 乱 序 执行 ， 它 需要 处 理 器 支持 复杂 的 运行 时 冒险 规避 硬件 
( runtime hazard-avoidance hardware ) 。 我 们 将 在 5. 9 节 对 一 种 支持 乱 序 执行 的 处 理 器 进行 讨论 ， 即 
Tomasulo 方法 ， 而 框 5.7 则 简要 介绍 了 另 一 种 方法 一 一 记分 牌 。 





表 5-2 预约 表 截 取 了 一 个 超标 量 流水 线 工 作 的 12 个 时 钟 周期 。 注 意 到 MUL2 在 第 7 个 时 钟 
周期 不 被 执行 ， 它 将 执行 取 指 和 译 码 单元 阻塞 至 第 10 个 时 钟 周期 ， 此 时 它 才 被 执行 






取 指 和 译 码 
ALU ADD 
ALU T SUB AND2 
FPU FADD 
MUL MULI MUL2 
写 回 ADD | SUB | ANp1 | FADD | NOT 
时 钟 周期 


记分 牌 

记分 牌 (scoreboard) 用 来 记录 所 有 被 处 理 指令 的 相关 性 ， 并 且 允 许 此 刻 没有 相关 性 的 指令 能 够 进入 流 
水 线 执行 ， 这 需要 打 乱 原 有 代码 的 顺序 。 下 面 我 们 对 此 进行 详细 讨论 。 

发 送 指令 时 ， 处 理 器 根据 指令 确定 其 所 用 的 源 和 目标 操作 数 寄存 器 ， 然 后 阻塞 直至 遇 到 两 种 情况 ; 
( i ) 其 他 对 相同 寄存 器 进行 写 操作 的 指令 执行 完毕 ; (站) 所 需 的 功能 单元 可 用 。 这 两 个 条 件 正好 分 别 消 
除了 WAW 冒险 和 结构 冒险 。 

一 旦 一 条 指令 被 发 送 至 一 个 功能 单元 ， 操 作 数 就 会 从 指令 源 寄存 器 取出 ， 但 取出 过 程 被 阻塞 至 当前 任 
一 条 写 源 寄存 器 的 指令 执行 完毕 ， 如 此 可 以 避免 RAW 冒险 。 

收集 完 所 有 的 操作 数 后 指令 开始 执行 (此 时 记分 牌 会 一 直 记录 该 条 指令 直至 该 指令 处 理 完毕 ) 。 

最 后 ， 指 令 执行 完毕 并 准备 好 将 结果 写 回 目标 寄存 器 。 然 而 此 时 ， 如 果 先 前 已 发 送 的 指令 还 没有 将 操 
作 数 从 当前 将 要 写 同 的 寄存 器 取出 ， 将 会 阻塞 写 回 。 换 名 话说， 如 果 先 前 的 指令 仍旧 被 阻塞 以 等 待 执行 ， 
并 且 需 要 从 Rx 寄存 器 取 操作 数 ， 而 当前 的 指令 需要 对 Rx 寄存 器 进行 写 回 ， 那 么 当前 的 指令 将 会 被 延迟 直 
到 先前 的 指令 不 再 被 阻塞 并 已 经 从 Rx 寄存 器 中 取出 操作 数 后 才能 写 回 。 这 种 机 制 避 免 了 WAR 冒险 。 

虽然 表 5-2 的 程序 例子 很 短 ， 但 可 以 看 到 流水 线 的 指令 输出 率 比 输入 率 低 ， 这 是 因为 流水 线 
需要 暂停 以 保证 有 空闲 处 理 单元 去 执行 指令 。 因 此 在 处 理 现实 程序 代码 时 ， 这 种 处 理 器 需要 有 
比 平均 指令 吞吐 率 高 的 峰值 指令 吞吐 率 。 在 标准 测试 中 ,厂商 可 能 会 人 为 生成 使 处 理 器 运行 在 
峰值 吞吐 率 而 不 是 实际 平均 吞吐 率 的 指令 序列 〈 我 们 已 经 在 3. 5. 2 节 有 过 简单 的 讨论 ) 。 

然而 ， 对 超标 量 的 讨论 并 未 结束 ， 我 们 将 在 5. 4. 2 节 中 继续 讨论 在 每 个 时 钟 周 期 同时 处 理 多 
条 指令 的 超标 量 流水 线 。 


5. 4.2 多 发 送 超标 量 
在 上 一 节 ， 我 们 已 经 将 多 个 功能 单元 加 入 标量 流水 线 中 ， 虽 然 比 一 般 标 量 流 水 线 好 一 些 ， 但 
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是 这 并 没有 真正 成 为 一 个 超标 量 流水 线 。 

简单 超标 量 流水 线 的 好 处 就 是 它 能 够 在 每 个 时 钟 周 期 同时 发 送 多 条 指令 。 也 就 是 说 ， 相 比 
每 个 时 钟 周期 向 多 个 功能 单元 发 送 一 条 指令 ， 超 标量 流水 线 能 够 每 个 时 钟 周 期 向 多 个 功能 单元 
发 送 多 条 指令 。 

对 比 图 5-8 并 没有 什么 显著 变化 ， 然 而 在 每 个 时 钟 周期 发 送 多 条 指令 却 会 产生 不 同 的 预约 
表 。 虽 然 与 之 前 的 预约 表 很 相似 ， 但 是 在 每 个 时 钟 周期 有 两 个 取 指 和 译 码 以 及 两 个 写 回 ， 并 且 与 
我 们 以 后 将 遇 到 的 预约 表 也 完全 不 同 。 

下 边 的 执行 表 展 示 了 在 每 个 周期 进行 两 次 取 指 。 这 个 取 指 单元 向 3 个 不 同 的 执行 单元 发 送 指 
令 ， 这 些 执行 单元 轮流 使 用 两 个 写 回 单元 。 有 趣 的 是 ， 在 第 3 个 时 钟 周 期 和 第 5 个 时 钟 周期 ， 流 
水 线 上 分 别 有 两 个 明显 的 空隙。 在 这 两 个 时 钟 周期 上 ,第 二 个 取 指 和 译 码 单元 不 能 够 取 新 指令 。 
这 是 因为 ， 在 这 两 种 情况 下 ， 先 前 取 到 的 指令 因为 在 等 待 被 占用 的 功能 单元 (两 种 情况 下 都 是 
执行 单元 1) 而 没有 发 送 。 这 是 这 种 超标 量 处 理 器 在 现实 中 常见 的 现象 。 


一 一 一 











取 指 和 译 码 五 
取 指 和 译 码 
执行 单元 1 | 
执行 单元 2 
执行 单元 3 
中 回 

写 回 

时 钟 周期 1 
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至 此 我 们 已 经 为 不 同 的 流水 线 操作 制作 了 很 多 预约 表 ， 然 而 还 有 其 他 制作 预约 表 的 方法 ， 
在 图 5-9 中 就 给 出 了 其 中 一 种 。 图 中 按 顺 序 从 上 到 下 显示 发 送 的 指令 ， 横 坐标 轴 表 示 时 间 。 在 这 
个 例子 中 ， 流 水 线 上 并 没有 出 现 阻 塞 ， 所 以 所 有 的 指令 都 按 顺 序 执行 并 且 按 顺 序 完 成 。 然 而 现实 
中 不 需要 都 这 样 执行 。 











取 指 时 间 ” 
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取 指 
| 评 码 “站 执行 
取 指 “| 译 码 | 回合， | 
4 | 取 指 i 写 回 
[| 取 指 写 回 























图 5-9 ”预约 表 的 另外 一 种 格式 ， 它 显示 了 指令 按 顺 序 从 上 往 下 执行 ， 在 时 间 
上 是 从 左 往 右 。 垂 直方 向 的 直线 与 我 们 之 前 看 到 的 预约 表 一 样 表示 了 
在 某 一 时 刻 流水 线 的 操作 


5.4.3 超标 量 的 性 能 


超标 量 体 系 结构 的 一 个 特征 是 它 发 送 指令 的 速度 与 处 理 指 令 的 速度 相当 。 理 论 上 ， 超 标量 
处 理 器 并 不 需要 支持 流水 线 ， 但 是 在 现实 中 ， 几 乎 所 有 的 超标 量 处 理 器 都 是 流水 线 的 。 
任何 事物 都 取决 于 用 什么 性 能 指标 去 衡量 它 〈 在 3. 5.2 节 有 讨论 ) 。 我 们 已 经 提 到 过 ， 超 标 
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量 处 理 絮 需要 能 够 高 速 发 送 指令 ， 虽然 现实 中 平均 指令 发 送 率 比 峰值 要 低 ,但 这 主要 是 取决 于 
执行 单元 的 占用 率 。 从 这 种 局 限 性 出 发 ， 可 以 通过 改变 编译 器 设置 将 使 用 不 同类 型 功能 单元 的 
指令 进行 交错 来 提高 指令 发 送 率 。 指 令 发 送 率 主要 取决 于 所 处 理 任务 的 性 质 。 

最 好 的 情况 可 以 在 图 5-9 中 看 到 ， 超 标量 处 理 器 可 以 并 行 处 理 指令 。 这 也 是 一 种 并 行 计 算 机 
的 形式 〈 在 5. 8 节 我 们 将 会 有 更 细致 的 探讨 ) 。 


5.5 每 周期 的 指令 数 

每 周期 的 指令 数 〈(IPC) 至 少 在 理论 上 是 一 个 非常 重要 的 衡量 处 理 器 执行 程序 快慢 的 指标 。 
但 IPC 并 不 能 衡量 每 周期 做 多 少 工作 ， 因 为 这 还 取决 于 每 条 指令 能 做 多 少 工作 以 及 编程 人 员 和 编 
译 器 的 能 力 。 因 此 ， 在 不 同 的 机 器 上 比较 代码 的 执行 速度 也 是 没有 意义 的 。 

然而 IPC 是 一 个 有 用 的 指标 ， 它 是 通过 典型 代码 得 到 的 平均 数据 ， 可 以 指出 某 一 种 体系 结构 
原始 的 处 理 能 力 。 事 实 上 ， 平 均值 与 CPI 峰值 的 比率 可 以 作为 一 个 直观 的 衡量 单位 ， 一 个 非常 接 
近 峰 值 的 平均 值 表明 某 体系 结构 对 所 执行 的 代码 是 非常 优化 的 。 


5.5.1 不 同体 系 结构 的 IPC 


不 同类 型 的 处 理 器 的 IPC 值 不 一 样 ， 并 且 因 为 结构 不 同 而 导致 的 工作 方式 也 不 一 样 : 
e CISC 处 理 器 ”IPC 值 远 低 于 1， 这 是 因为 它们 的 指令 相对 来 说 都 很 耗 时 ， 而 且 在 发 展 史 
上 也 极 少 去 对 这 种 体系 结构 的 指令 进行 简化 。 
。 RISC 处 理 器 ” 相 比 之 下 ，IPC 值 可 以 达到 1， 虽然 在 不 同情 况 下 可 能 达 不 到 这 个 值 。 达 
不 到 1 的 原因 包含 : 偶尔 出 现 的 多 长 指令 (如 乘法 、 除 法 等 ) 以 及 取 / 存 指令 需要 等 待 
慢 速 的 外 部 存储 器 一 一 RISC 处 理 器 几乎 都 是 取 数 - 存 数 机 器 (参见 3.2.3 节 )。 后 一 种 
因素 在 DSP 处 理 器 使 用 外 部 存储 器 时 特别 普遍 。 流 水 线 可 以 帮助 RISC 处 理 器 的 IPC 更 
接近 1。 
。 超标 量 处 理 器 ”我 们 已 经 知道 ， 超 标量 处 理 器 能 够 并 行 发 送 多 条 指令 。 对 于 一 个 拥有 
个 指令 发 送 单元 的 机 器 〈( 即 每 个 时 钟 周 期 最 多 能 够 发 送 n 条 指令 )， 那么 它 的 IPC 能 够 
达到 n。 然 而 在 5.4.2 节 中 我 们 已 经 看 到 ， 如 果 一 段 指令 都 需要 相同 的 功能 单元 (硬件 
相关 ) 或 者 存在 数据 相关 问题 ， 都 将 导致 流水 线 停顿 。 显 然 ， 流 水 线 的 停顿 越 多 ， 超 标 
量 处 理 器 的 IPC 值 就 会 越 低 。 
。 YLIWe2/EPIC2 处 理 器 ”它们 都 将 在 9. 2 节 中 讨论 ， 其 IPC 都 远 远 大 于 1.0。 它 们 适用 于 
专用 领域 如 多 媒体 处 理 和 信号 处 理 。 
es 并 行 机 器 ”在 一 台 计 算 机 上 包含 两 个 或 多 个 处 理 器 核 ， 昌 然 每 个 处 理 器 核 的 IPC 不 高 ， 
但 在 并 行 执行 时 会 有 很 高 的 吞吐 率 。 由 此 ， 整 台 机 器 的 IPC 就 等 于 每 个 处 理 器 核 的 IPC 
乘 以 处 理 器 核 的 数量 。 我 们 将 在 下 面 做 更 深入 的 讨论 。 
提高 PC 是 当前 许多 处 理 器 设计 人 员 的 主要 关注 点 ， 并 且 也 是 计算 机 体系 结构 设计 师 用 于 提 
高 机 器 性 能 的 主要 方法 。 
在 写本 书 的 时 候 ， 并 行 机 器 非常 有 吸引 力 ， 这 源 于 主要 的 处 理 器 制造 商 如 Intel 的 推动 ， 他 
们 开发 出 了 双核 、 四 核 甚至 更 高 层次 的 并 行 。 我 们 将 在 5. 8. 1 节 中 简单 讨论 双核 处 理 器 ,在 5.8 
节 中 也 将 对 并 行 计 算 方 法 进行 更 全 面 的 讨论 。 简 单 而 言 ， 目 前 制造 商 们 在 通过 提高 处 理 器 体系 
结构 复杂 度 来 提高 处 理 器 时 钟 频率 的 方法 上 遇 到 了 --- 个 转折 点 : 不 论 使 用 什么 方法 ， 都 不 能 使 





名 ”VLIW (Ver Long Instruction Word) : 超 长 指令 字 。 
全 EPIC (Explicitly Parallel Instruction Computing) : 显 式 并 行 指令 计算 。 
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得 性 能 的 提高 和 体系 结构 复杂 度 的 提高 等 价 。 换 句 话说 ,使 用 今天 的 工具 来 提高 处 理 器 的 性 能 
已 经 变 得 越发 困难 。 

如 果 对 以 上 我 们 所 描述 的 那些 方法 进行 更 深入 的 讨论 ， 将 会 看 到 现代 的 计算 机 体系 结构 设 
计 师 不 断 将 日 益 增长 的 性 能 需求 转嫁 到 编译 器 和 软件 上 。 让 我 们 归纳 一 下 : CISC 处 理 器 在 硬件 
上 实现 了 很 多 操作 。 相 反 ，RISC 处 理 器 通过 使 用 简单 的 指令 简化 了 (也 加 速 了 ) 硬件 。RISC 意 
味 着 更 多 的 软件 指令 ， 但 会 执行 得 更 快 。 所 以 RISC 程序 一 般 会 比 CISC 程序 长 ， 同 时 其 编译 器 也 
比 CISC 的 复杂 一 些 。 超 标量 系统 在 流水 线 上 实现 了 一 些 有 限 的 并 行 ， 而 为 了 避免 流水 线 停顿 ， 
其 处 理 数据 相关 性 的 问题 也 变 得 十 分 重要 。 因 此 ， 为 了 获得 好 的 性 能 ， 超 标量 的 编译 器 必须 要 考 
虑 相关 性 问题 ， 并 且 要 熟知 超标 量 流 水 线 的 能 力 。 对 于 将 会 在 第 9 章 讨 论 的 VLIW 和 EPIC， 比 目 
前 任何 我 们 所 讨论 的 体系 结构 都 要 复杂 ， 并 且 完 全 要 依赖 于 编译 器 的 调度 。 

对 于 并 行 机 器 也 是 同样 。 虽 和 然 处 理 器 本 身 可 能 十 分 简单 ， 但 是 它们 之 间 的 互联 关系 变 得 十 
分 复杂 。 而 且 现 在 存在 这 样 的 问题 : 当前 的 软件 工程 师 能 和 否 将 软件 都 写成 并 行 的 。 除 去 编程 人 员 
的 因素 ， 还 存在 这 样 的 问题 : 当前 最 流行 的 编程 语言 并 没有 针对 并 行 处 理 器 进行 任何 优化 。 这 样 
看 来 ， 在 并 行 机 器 被 完全 开发 出 来 之 前 ， 有 两 件 事情 要 先 完成 : ( i ) 新 一 代 的 能 够 写 并 行 代码 
的 软件 工程 师 ; 〈 这 ) 新 一 代 支 持 并 行 计 算 机 的 编程 语言 及 相关 工具 。 

关于 并 行 处 理 还 有 一 点 要 注意 的 是 ， 虽然 “转向 并 行 ” 成 为 当前 处 理 器 制造 商 持续 满足 不 
断 增长 的 性 能 需求 的 有 效 手段 ， 但 获得 所 需 的 加 速 还 需要 编程 人 员 的 支持 。 对 于 一 个 独立 的 程 
序 ， 这 种 加 速 是 难以 获得 的 。 然 而 ， 特 别 是 对 于 服务 器 或 台式 机 ， 它 们 运行 的 是 多 任务 操作 系统 
如 Linux， 通 常会 有 多 个 线程 (任务 ) 同时 执行 。 并 行 机 器 会 将 不 同 的 线程 划分 到 不 同 的 处 理 器 
上 执行 ， 对 于 单个 线程 ， 虽然 从 CPU 时 间 上 讲 并 不 会 运行 得 更 快 ， 但 由 于 不 用 与 其 他 任务 分 享 
时 间隙 和 优先 权 ， 所 以 它 会 完成 得 更 快 。 在 退 人 式 系统 中 ， 在 一 段 时 间 内 通常 只 有 少数 几 个 任务 
在 执行 或 只 有 一 个 任务 在 执行 ， 因 此 使 用 并 行 技术 很 难 获 得 性 能 提升 。 在 这 种 系统 中 ， 只 有 当 关 
键 任务 本 身 是 能 够 并 行 化 ?的 ， 才 能够 得 到 加 速 。 这 又 重新 回 到 那个 话题 ， 需 要 好 的 并 行 工具 和 
语言 给 好 的 并 行 编程 人 员 使 用 。 


5. 5.2 IPC 度量 


正如 我 们 在 5. 4. 3 节 和 其 他 地 方 (包括 3.5.2 节 ) 所 提 到 的 ， 处 理 器 运行 所 获得 的 性 能 是 不 
能 和 所 预测 的 性 能 相提并论 的 。 如 果 工 程 师 想 执行 一 个 已 知 的 算法 ， 可 以 将 该 算法 分 别 运行 在 
不 同 的 体系 结构 上 ， 看 看 哪个 执行 得 更 快 。 然 而 ， 对 于 非特 定 代码 的 性 能 预测 依赖 于 很 多 因素 ， 
但 可 以 这 么 估计 : 将 IPC 除 以 指令 周期 频率 ， 再 乘 以 所 需 执行 的 指令 数 。 
随 着 程序 大 小 和 普遍 性 的 提高 ， 这 种 定义 变 得 更 准确 。 需 要 记 住 的 是 ， 嵌 入 式 系统 的 计算 任 
务 通常 小 而 且 固定 ; 相反 ， 运 行 在 台式 机 或 服务 器 上 的 代码 通常 在 设计 时 很 难 预 测 。 
问题 随 之 产生 ，IPC 数据 是 否 精确 。 对 于 任意 体系 结构 ， 都 有 特定 的 规定 来 提高 IPC 准确 
性 ， 下 面 是 其 中 的 一 些 : 
使 用 峰值 IPC 而 不 是 平均 IPC 来 得 到 最 佳 情况 下 的 数据 。 
使 用 特定 测试 代码 而 不 是 具有 全 局 代表 性 的 代码 来 获得 平均 IPC。 
用 于 获得 IPC 的 执行 指令 全 部 来 自 内 部 存储 器 。 
需要 使 用 外 部 存储 器 时 ， 仅 考虑 在 时 钟 频 率 低 时 获得 的 IPC (由 于 处 理 器 时 钟 频率 很 慢 ， 
因此 访问 外 存 的 速度 不 足以 影响 IC 的 值 ) 。 
在 选择 代码 时 ， 不 使 用 或 极 少 使 用 慢 速 指令 来 评估 IPC。 





加 ”并行 化 (parallelised) : 使 程序 可 并 行 执行 。 
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。 移 除 已 知 的 慢 速 代码 段 。 

通过 本 书 的 讨论 ， 读 者 应 该 能 意识 到 不 同 的 体系 结构 都 有 自己 的 优 缺 点 。 然 而 为 特定 的 计 
算 任 务 选择 合适 的 处 理 器 不 仅 是 一 门 科学 ， 更 是 一 门 艺术 : 这 需要 一 定 的 直觉 。 在 作者 看 来 ， 需 
要 忽略 与 性 能 相关 的 市 场 和 销售 因素 。 性 能 极 少 成 为 关键 性 准则 ， 其 重要 性 往往 比 不 过 易 编程 
性 、 可 扩展 性 、 可 获得 的 支持 和 开发 工具 、 产 品 寿 命 ， 以 及 其 他 技术 因素 。 


5.6 硬件 加 速 器 


在 现代 CPU 中 ， 大 部 分 的 硅 片 面积 都 是 专门 用 来 加 速 基本 的 处 理 操作 的 。 加 速 方 法 包括 : 
使 用 高 速 缓存 ， 为 体系 结 爸 添 加 额外 的 总 线 、 流 水 线 ， 以 及 混合 专门 的 数值 处 理 单元 。 

起 初 ， 处 理 器 只 包含 了 一 个 基本 ALU 来 对 数值 进行 处 理 ( 可 以 看 到 ， 所 有 的 操作 都 可 以 通 
过 ALU 来 完成 ， 只 要 执行 速度 不 是 太 重要 ) 。 然 后 ， 加 入 了 乘 累加 单元 以 加 快 乘法 操作 ， 其 通过 
反复 相 加 来 实现 乘法 。 

浮 点 计算 模块 曾经 作为 额外 的 可 选 配置 ， 需 要 插 人 一 个 单独 的 蕊 片 ， 但 现在 却 被 当做 台式 
机 的 标准 配置 。 与 浮 点 模块 相同 的 是 ， 台 式 处 理 器 现在 按 常规 都 包含 SIMD 硬件 (参见 2. 1.1 
节 ) ， 并 且 已 经 开始 为 支持 无 线 网 络 而 整合 了 不 同 的 硬件 加 速 器 。 

其 他 的 硬件 加 速 器 还 包含 了 图 形 控制 、 加 密 、 通 信 以 及 数据 压缩 。 目 前 看 来， 硬件 加 速 器 的 
种 类 还 在 不 断 扩 大 ， 并 且 还 可 以 为 特定 应 用 提供 加 速 一 一 尤其 是 在 专门 的 嵌入 式 片上 系统 处 理 
器 中 。 

男 一 方面 ， 刹 件 加 速 还 对 体系 结构 做 了 改进 ， 从 而 提高 了 处 理 的 速度 ， 而 这 种 提高 是 与 数据 
无 关 的 。 在 之 前 的 讨论 中 已 经 提 到 了 一 些 ， 如 流水 线 (5.2 节 )、 高 速 缓存 (4.4 节 ) 、 多 总 线 体 
系 结构 (4. 1 节 ) 以 及 自 定义 指令 (3.3 节 ) 。 本 节 将 对 更 多 此 类 的 硬件 加 速 机 制 进行 讨论 。 


5. 6.1 零 开销 循环 


许多 算法 都 包含 了 循环 ， 如 for() 、while() 以 及 do()。 总 体 来 说 ,循环 控制 都 需要 有 开销 。 
考虑 以 下 给 定 循环 次 数 的 循环 例子 : 

i = 20; 

while {i-- > 0) 

{ 


} 
这 串 代码 需要 以 下 操作 步骤 ; 
. 设置 i1=20。 
. 比较 i 是 否 为 0。 
. 如 果 等 于 0， 则 分 支 至 循环 体 后 的 指令 。 
i=i—}。o 
.执行 循环 体 。 
. 跳 回 循环 开始 处 〈 第 2 步 )。 
根据 循环 类 型 ， 需 要 在 循环 体 之 前 或 之 后 检测 循环 条 件 ， 以 判断 是 否 要 继续 执行 循环 ， 但 如 
果 循 环 体 本 身 很 简单 ， 检 测 循环 条 件 的 开销 就 相对 变 得 很 大 。 来 看 看 以 下 一 段 来 自 DSP 的 代码 ， 
它 实 现 了 一 个 数字 滤波 器 : 
for(i = 20;i>0;i--) 
y=Y + x[i]l* coeff[il]; 





< 循环 体 > 








201 











203 支持 ZOL 的 硬件 相对 比较 简单 ， 图 5-10 是 其 模块 图 。 
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循环 体 的 计算 虽然 看 上 去 比较 复杂 ,但 是 在 现在 的 DSP 处 理 器 中 只 需 一 条 简单 指令 就 可 以 
实现 。 不 过 ， 如 果 采 用 刚才 提 到 的 6 步 循环 操作 ， 那 么 这 段 代码 将 由 1 条 设置 指令 以 及 随后 的 20 
次 第 2 ~6 步 重复 执行 组 成 ， 加 起 来 总 共有 101 条 指令 。 

由 于 很 多 DSP 代码 的 循环 都 是 类 似 于 这 种 循环 体 很 小 的 循环 ，DSP 设计 人 员 已 经 意识 到 使 用 大 
量 额外 的 指令 来 支持 这 种 循环 效率 非常 低 ， 因 此 开发 了 零 开销 循环 (Zero- Overhead Loop，Z0OL) 。 

以 下 是 一 个 德州 仪器 (TI) TMS320C50 处 理 器 的 汇编 代码 例子 : 

set BRCR to #20 
RPTB loop --1 
… 忆 特 坏 体 > 

loop …< 跳出 循环 体 > 

在 这 个 例子 中 ， 使 用 一 条 指令 设置 BRCR 循环 计数 器 ， 然 后 使 用 另 一 条 指令 进入 循环 。DSP 
处 理 器 会 检查 PC 指针 ， 当 它 到 达 (loop -1) 时 ， 自 动 将 PC 指针 复位 回 循环 起 始 位 置 。 在 这 个 
例子 中 总 共 进 行 20 次 这 样 的 操作 ， 总 共 执 行 了 22 条 指令 ， 而 不 是 像 不 支持 ZOL 时 需要 执行 101 
条 指令 。 

Analog Devices 在 他 们 的 ADSP2181 处 理 器 上 也 有 类 似 方法 : 

set CNTR to #20 
DO loop UNTIL LE 
… 之 特 坏 体 > 

loop … 之 跳出 循 坏 体 > 

可 以 看 到 这 两 种 方法 的 基本 原理 是 一 样 的 ， 但 后 一 种 方法 可 以 支持 不 同 的 循环 终止 条 件 
(LE 指 小 于 或 等 于 ， 除 此 以 外 还 有 其 他 15 种 条 件 ) 。5. 6. 2 节 将 会 在 此 基础 上 对 ADSP2181 的 寻 


址 能 力 进行 探讨 。 循环 结束 











图 中 硬件 的 功能 需求 如 其 名 字 一 样 ， 有 用 来 存放 循环 
起 始 地 址 的 ， 有 用 来 存放 循环 结束 地 址 的 ， 有 一 条 PC 指针 
达到 循环 结束 的 路 径 (地 址 比较 器 ) ， 以 及 一 条 通过 重 置 
PC 指针 为 循环 起 始 地 址 分 支 回 到 循环 起 始 处 的 路 径 。 除 此 
之 外 ， 还 需要 循环 计数 器 保持 和 自 减 的 方法 以 及 判断 循环 
停止 条 件 的 机 制 ( 例 如 ， 循 环 计 数 器 为 0) 。 

一 种 可 能 发 生 的 比较 复杂 的 情况 是 ,循环 指令 不 是 一 
个 简单 指令 ， 而 是 一 个 调用 其 他 函数 的 指令 ， 而 其 所 调用 ”图 5-10 在 一 个 处 理 器 上 实现 零 开 
的 函数 又 包含 了 循环 。 由 此 ， 这 就 需要 尝 套 循环 。 在 ADSP 第 从 环 所 需 的 硬件 及 共 俐 
中 ，ZOL 寄存 器 是 包含 在 堆栈 里 的 ， 因 此 只 要 循环 结束 地 i 
址 不 同 就 可 以 以 最 小 开销 自动 嵌 套 循环 。 相 反 ，TMS 缺少 这 样 的 硬件 支持 ， 因 此 循环 嵌 套 就 需 
要 手动 保存 / 重 置 循环 寄存 器 。 

另 一 种 复杂 的 情况 是 ， 虽 然 以 上 两 种 ZOL 例子 都 是 用 汇编 语言 写 的 ， 但 现在 大 部 分 代码 都 
是 用 C 语言 写 的 ， 因 此 C 编译 器 需要 能 够 意识 到 可 以 使 用 ZOL 硬件 。 简 单 的 C 结构 如 之 前 的 
while 和 for 循环 ， 以 及 如 下 的 循环 都 可 以 很 容易 地 用 ZOL 实现 : 

k = 20; 

dof{ 

达 循 环 体 > 
} while (k-- >0) 


注意 到 以 上 例子 的 循环 计数 器 都 是 向 下 计数 的 。 在 TMS 中 ， 循 环 计数 器 是 不 能 向 上 计数 的 ， 


循环 开始 
的 地 址 


地 址 比较 
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所 以 如 下 代码 : 

for(i = 0;i <20;i++) 

| < 循 坏 体 > 

} 

在 汇编 代码 中 需要 转换 成 向 下 计数 (如 计数 器 从 20 递减 到 0) ， 通 常 假设 所 用 到 的 编译 器 都 足够 
智能 ， 可 以 完成 这 种 转换 。 

同时 ， 软 件 编程 人 员 负 有 让 C 代码 结构 能 够 使 用 ZOL 硬件 的 责任 。 对 于 这 样 的 硬件 ， 最 好 
避免 代码 中 的 循环 计数 器 不 是 以 1 为 计数 递增 或 递减 ， 也 要 避免 在 循环 体 的 算法 里 将 循环 索引 用 
于 计算 。 

给 定 一 些 支 持 零 开销 的 循环 ， 那 条 老 的 嵌入 式 代码 原则 一 一 将 所 有 人 能够 合并 的 独立 循环 都 
合并 一 一 并 非 总 是 正确 的 。 事 实 上 ， 如 果 在 循环 时 强迫 将 变量 存放 到 外 存 上 (可 能 因为 缺少 临 
时 寄存 器 ) ， 那 么 这 也 许 是 有 害 的 。 

在 ADSP2181 中 支持 硬件 无 限 循环 ,但 可 以 将 循环 体 中 的 某 部 分 作为 终止 循环 条 件 。 这 对 于 
C 程序 是 十 分 有 利 的 ， 因 为 C 语言 包含 所 有 可 能 的 循环 结构 。 

此 类 循环 硬件 加 速 器 称 为 PC 陷阱 (PC trap) 。 目 前 还 有 更 多 复杂 的 硬件 用 来 完成 类 似 任 务 ， 
将 在 下 一 节 讨 论 。 


5. 6.2 ”地址 处 理 硬件 


ARM 处 理 器 只 有 一 个 通用 寄存 器 组 ， 而 许多 处 理 器 却 将 数据 和 地 址 分 别 存放 在 不 同 的 寄存 
器 上 。 事 实 上 ， 这 些 处 理 器 中 之 所 以 这 么 做 是 因为 它们 的 数据 总 线 和 地 址 总 线 宽 度 不 一 样 。 

Motorola 68000 系列 处 理 器 的 寄存 器 都 是 32 位 的 ， 却 把 寄存 器 分 为 8 个 数据 寄存 器 DO ~ D7 
和 7 个 地 址 寄存 器 A0 ~ A6。 虽 然 任意 的 值 都 可 以 保存 在 这 些 寄存 器 中 ， 但 是 只 有 将 地 址 存放 在 
地 址 寄存 器 中 时 才 会 被 当成 地 址 使 用 。 类 似 地 ， 正 在 处 理 的 指令 不 能 将 结果 直接 存放 到 地 址 寄 
存 器 中 。 程 序 员 也 可 以 利用 地 址 寄存 器 所 附带 的 硬件 在 访问 前 或 访问 后 增加 或 减少 地 址 值 ， 以 
及 将 地 址 值 用 于 索引 。 然 而 ， 如 果 需 要 更 复杂 的 地 址 运算 ， 就 需要 将 地 址 从 地 址 寄存 器 转移 至 数 
据 寄存 器 中 进行 算术 运算 ， 然 后 再 将 结果 放 回 地 址 寄存 器 中 。 

ADSP21xx 系列 DSP 处 理 器 通过 数据 地 址 生成 器 (Data Address Generator，DAG) 扩展 了 这 种 
方法 。 在 ADSP2181 中 包含 两 组 这 种 寄存 器 ， 每 组 分 别 包 含 4 个 1 寄存 器 、4 个 工 寄存 器 和 4 个 M 
寄存 器 : 






































0 | wm Mo | | 4 | 1 M4 
n | a ML | 6 15 M5 
2|D | Mm | 16 区 M6 
B | DB | Mm | DT 17 M7 
DAGI1 DAC2 


每 一 个 索引 (1) 寄存 器 存放 用 于 访问 存储 器 的 真实 地 址 ，L 寄存 器 存放 了 与 这 些 地 址 一 致 
的 存储 区 域 长 度 ，M 寄存 器 存放 更 改 的 值 。 

在 汇编 代码 中 ， 读 存储 器 通过 下 述 语 法 实现 : 

AX0O = DM(I3, M1); . 

这 意味 着 从 数据 存储 地 址 为 I3 寄存 器 所 指 的 地 方 读 取 一 个 数据 ， 读 出 的 数 存放 到 AX0 寄存 
器 中 ， 然 后 通过 加 上 MI 寄存 器 的 内 容 完成 对 3 寄存 器 的 修改 。 如 果 B 的 新 值 超过 了 长 度 寄存 
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器 13 + 起 始 B， 那 么 将 B 中 的 值 模 起 始 B 值 然 后 保存 (起 始 13 值 是 指 缓冲 区 的 首 地 址 ) 。 如 果 
L3 寄存 器 的 值 为 0， 则 意味 着 13 的 内 容 没 有 发 生 改 变 。 这 种 安排 将 会 通过 一 些 例子 给 出 更 详细 
的 说 明 ( 见 框 5.8)，, 但 需要 注意 到 ， 指 令 中 的 任何 地 方 都 没有 提 及 L3。 这 是 因为 ,I 寄存器 和 上 
寄存 器 操作 都 是 同时 进行 的 ， 而 M 寄存 器 则 是 独立 的 : 在 每 个 DAG 中 ， 任 何 M 寄存 器 都 可 以 用 
于 修改 1 寄存 大 ,但 这 个 DAG 中 的 M 寄存 器 不 能 对 其 他 DAG 中 的 工 寄存 器 进行 修改 。 框 5.8 给 
出 了 ADSP21xx ZOL 硬件 操作 的 3 个 例子 。 
ZOL 示例 

例 1: 考 卡 一 个 访 存 部 分 使 用 ADSP 汇编 器 汇编 、 其 余 使 用 ARM 汇编 器 汇编 的 混合 例子 。 对 本 例 及 其 
他 例子 所 指 的 地 址 都 会 有 明确 的 说 明 。 通 常情 况 下 ， 由 于 有 一 些 特 定 的 约束 《在 这 不 予 讨论 ， 但 在 
ADSP21xx 的 手册 中 有 说 明 ) ， 这 些 地 址 都 是 通过 链接 器 (linker) 来 分 配 的 。 






































MOV I0, #0x1000 ; 设置 I0 = 0x1000 

MOV LO, #0x2 ; 设置 L0 = 2 

MOV MO, #0 ; 设置 MO = 0 

MOV M1, #1 ; 设置 ML = 1 
loop: AX0 = DM(I0, M0) ; AX0 取 数 

ADD AXO0, AXO, #8 ; AX0 = AXO+8 

DM(I0, M1) = RAX0 ; AX0 存 数 

B loop 

下 来 ,我 们 将 对 循环 执行 过 程 中 人 0 的 值 的 变化 构建 一 个 表 : 
指令 了 0 变化 指令 10 变化 

1 MOV ML ， 相 0x1000 AX0 =DM(I0，MO ) 0x1001 
2 AX0 = DM (I0, M0) 0x1000 RDD AX0, AX0, #8 0x1001 
3 RDD RMX0 ，RAX0 ， 想 0x1000 DM(I0, Ml) =AXO 0x1000 
4 DM (I0, M1) =AXO Ox1001 B loop 0x1000 
5 B loop Oxl001 




















注意 到 在 第 2 行 中 10 被 MO 更改 了 ,但 是 由 于 M0 为 0， 所 以 I0 的 值 不 会 改变 。 在 第 4 行 , J 被 MIi 更 
改 ， 由 于 M1 =1， 所 以 I0 加 1。 同 理 , 第 6 行 以 及 第 8 行 的 更 改 也 类 似 。 虽 然 J0 的 值 应 为 0x1002，, 但 由 
于 LO =2， 即 缓冲 区 的 长 度 为 2， 所 以 地 址 又 跳 回 了 0x1000。 

例 2: Ll 设置 为 0, Il 为 0x1000，M0 为 0x10。 

通过 AX0 =DM (I0,M0) 和 连续 地 从 0 读 值 将 会 看 到 地 址 寄存 器 加 中 出 现 以 下 值 : 0x1000、0x1010、 
0x1020、0x1030 、0x1040、0x1050 等 。 这 是 因为 Ll 为 0， 所 以 地 址 不 会 出 现 循环 。 

例 3: 在 这 个 例子 中 ，L4 被 设置 为 50, I0 为 0，M4 为 2，M5 为 10。 这 构建 了 一 个 拥有 50 个 存储 空间 
的 循环 缓冲 区 ， 起 始 地 址 为 0。 执 行 以 下 循环 : 








loop: AXO = DM(I4, M5) 
AY0 = DM(I4, M4) 
B loop 


随 着 循环 的 执行 ，[4 的 值 将 会 如 此 变化 : 0、10、12、22、24、34、36、46、48、8、10、20、22 等 。 
注意 使 用 黑体 标注 的 数字 。 先 看 48，14 索引 应 加 上 10 变 为 58， 但 由 于 L4 为 50， 所 以 这 超过 了 缓冲 区 的 长 
度 ， 因 而 14 被 循环 回 起 始 处 ， 由 此 48 之 后 为 8。 

毋庸 置疑 ，ADSP 拥有 强大 的 地 址 处 理 能 力 ， 但 考虑 3. 3. 4 节 所 提 到 的 基于 ARM 处 理 器 的 寻 
址 模式 。 事 实 上 ，ADSP 除了 其 先进 的 寻 址 硬件 外 ， 并 没 任何 超越 那些 寻 址 模式 的 能 力 。 

由 此 DAG 和 与 其 相关 的 硬件 对 于 维护 环形 缓冲 区 和 执行 同步 地 址 变化 〈 例 如 预定 义 向 前 或 
向 后 ) 是 十 分 有 用 的 。 然 而 ， 在 所 获得 的 这 些 效 率 之 外 ， 这 种 硬件 并 没有 从 本 质 上 提高 处 理 恬 
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的 性 能 。 这 种 效率 的 获得 带 来 的 开销 是 ,需要 为 硬件 一 一 如 图 5-11 所 示 的 ADSP2181 中 的 一 个 
DAG 单元 提供 芯片 面积 。 


DMD 总 线 








一 一 人 
根据 指令 字 选 择 寄存 器 


地 址 


图 5-11 数字 信号 处 理 嚣 ADSP2181 内 的 第 二 条 数据 地 址 生成 器 (DAG ) 
硬件 模块 图 。 它 显示 了 内 部 长 度 寄存 器 IO ~ [3 、 索 引 寄存 器 I0 ~ 
13 及 修改 寄存 器 MO ~ M3 是 如 何 与 地 址 专用 加 法 器 和 内 部 DMD 
(数据 -存储 -数据 ) 总 线 相连 的 


从 图 中 可 以 看 到 ， 由 于 在 每 个 指令 周期 最 多 访问 DAG 中 的 一 个 寄存 器 ， 因 此 每 一 个 L、I 及 
M 寄存 器 都 通过 共享 总 线 访问 。DMD ( Data- Memory- Data， 数 据 -存储 - 数据 ) 总 线 用 于 传输 数 
据 操 作 数 并 和 数据 存储 器 链接 (4. 1. 3 节 中 更 详细 地 说 明了 ADSP 这 种 非常 规 的 内 部 总 线 结构 ) 。 
另外 ，DAG1 (没有 画 出 来 ) 可 以 按 位 反 序 输出 地 址 : 这 在 快速 傅 里 叶 变 换 和 其 他 数字 信和 号 处 理 
中 能 带 来 显著 的 性 能 提高 。 

由 于 在 ADSP21xx 中 片上 数据 和 代码 是 分 开 存 储 的 并 分 别 由 独立 的 总 线 支 持 ， 同 时 有 两 个 
DAG， 因 此 ADSP21xx 可 以 通过 后 改 (post- modification ) 和 循环 地 址 (wraparound) 直接 访问 内 
存 中 的 两 个 DAG 地 址 操作 数 。 一 经 访问 ， 这 两 个 操作 数 可 以 在 1 个 指令 周期 内 被 处 理 并 存储 。 
相反 ， 对 于 ARM 处 理 器 ， 在 功能 上 也 能 完成 这 样 的 操作 ， 但 是 并 不 能 在 1 个 指令 周期 内 完成 。 
我 们 也 曾 提 到 过 ，ARM 不 需要 在 一 条 指令 内 访问 两 个 不 同 地 址 的 操作 数 (因为 取 数 - 存 数 
(load-store) 结构 最 多 只 有 一 个 地 址 操作 数 一 一 在 框 5.9 中 有 详细 讨论 ) 。 

ARM 中 的 地 址 编 址 

作为 一 款 RISC 设计 ，ARM 只 为 地 址 提供 了 最 少 的 专用 处 理 硬 件 ， 但 只 要 简单 尝试 调整 指令 流 ，ARM 
处 理 这 些 指 令 的 速度 也 会 提升 。 

正如 3.2.3 节 所 讨论 的 ，ARM 通过 一 条 数据 load 指令 和 一 条 数据 store 指令 实现 joad-store 结构 (事实 
上 在 多 处 理 器 系统 中 ， 还 有 一 条 swap 指令 )。 读 取 和 存储 的 地 址 可 以 为 向 前 偏 移 或 向 后 篇 移 〈 增 加 或 减 
少 )， 也 可 以 为 直接 寻 址 或 间接 寻 址 。 

ARM 利用 ALU 和 移 位 器 进行 地 址 计算 ， 因 为 这 些 硬 件 在 流水 线 执行 读 取 和 存储 指令 的 时 隙 是 可 用 的 
( 详 见 $.2.8 节 )。 与 ADSP 的 DAG 相 比 ，ARM 的 ALU 和 移 位 器 比 DAG 的 ALU 和 移 位 器 适用 性 更 高 。 

以 下 是 这 种 适用 性 的 例子 : 

LDR RO, [R1, R2, LSL#2] 

这 条 指令 要 将 内 存 地 址 (RI + (R2*4)) 的 内 容 取 入 寄存 器 RO。LSL 是 座 辑 左 移 指令 ,这 种 地 址 计算 
对 于 ADSP21xx 的 DAG 是 无 法 实现 的 。 

最 后 ， 需 要 注意 在 ADSP21xx 中 没有 选择 〈alternate) 或 影子 (shadow) DAG 寄存 器 (将 在 
5. 6.3 节 中 介绍 ) 。 这 意味 着 DAG 的 使 用 是 依赖 于 程序 上 下 文 以 及 中 断 支持 的 : 需要 通过 直接 写 
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汇编 代码 才能 完全 利用 这 种 地 址 处 理 加速 器 。 
5. 6. 3 影子 寄存 器 


CPU 寄存 器 是 处 理 器 上 下 文 的 一 部 分 ， 程 序 运行 时 可 见 。 其 他 上 下 文 则 包括 状态 标志 和 可 
见 存储 (viewable memory ) 。 

当 一 个 正在 运行 的 线程 被 一 个 外 部 中 断 信 号 中 断 时 〈 将 在 6. 5. 1 节 中 讨论 ) ， 中 断 服务 例 程 
(ISR) 就 会 运行 以 响应 这 个 中 断 信 和 号。 一 旦 ISR 运行 完毕 ， 控 制 又 转 回 到 原先 的 程序 。 “控制 ” 
一 词 在 这 里 是 指 程序 计数 器 的 指向 。 程 序 正 常情 况 下 应 该 是 按照 汇编 代码 一 条 接 一 条 顺序 往 下 
运行 的 ， 而 中 断 会 将 程序 切换 到 ISR 上 运行 ,在 ISR 执行 完毕 后 ， 再 转 回 到 原先 的 程序 上 继续 执 
行 ， 就 好 像 什么 事情 都 设 发 生 过 一 样 。 

来 考虑 这 样 一 个 过 程 ， 当 中 断 使 能 时 ， 就 有 可 能 在 任意 两 条 指令 之 间 触 发 一 个 SR。 因 此 对 
于 ISR 来 说 ， 它 必须 能 够 在 返回 时 将 所 有 的 东西 都 恢复 ， 使 得 程序 的 上 下 文 跟 它 被 调用 前 一 模 
一 样 。 

在 几 年 前 ， 程 序 员 必须 在 ISR 开始 的 时 候 对 当前 程序 进行 所 谓 的 上 下 文保 存 ， 并 在 ISR 退出 
前 恢复 上 下 文 。 保 存 上 下 文 的 过 程 是 将 每 个 寄存 器 按 顺 序 进 行 压 栈 ， 而 恢复 就 是 将 其 按 相 反 顺 
序 进 行 出 栈 。 这 个 过 程 会 花费 20 ~ 30 条 指令 的 开销 ， 并 且 必 须 在 ISR 执行 正式 的 中 断 操 作 前 
完成 。 

为 了 避免 这 种 开销 ， 影 子 寄存 器 被 开发 出 来 。 影 子 寄 存 器 是 第 二 个 寄存 器 组 ， 在 各 方面 与 主 
寄存 髓 组 相 一 致 。 然 而 ， 它 可 以 在 ISR 需要 的 时 候 被 利用 (包括 修改 )， 而 不 需要 修改 主 程序 可 
见 的 原始 寄存 器 。 以 TMS320C50 为 例 ， 一 旦 有 中 断 发 生 ， 处理 器 会 跳 到 对 应 的 ISR 并 自动 转换 
至 影子 寄存 器 。 当 ISR 执行 完毕 时 ， 一 条 专用 的 跳 回 指令 使 程序 跳 回 中 断 前 的 PC， 并 转换 回 原 
始 寄 存 器 。 

有 了 这 种 影子 寄存 器 ， 就 不 需要 手动 地 在 ISR 开始 时 保存 上 上下文、 结束 时 恢复 上 下 文 。 在 代 
码 的 任何 地 方 都 可 以 进行 中 断 而 不 需要 任何 额外 开销 。 然 而 ， 如 果 只 有 一 个 影子 寄存 器 组 ， 中 断 
就 不 能 能 套 ， 这 意味 着 在 一 个 中 断 发 生 时 ， 不 能 响应 另外 一 个 中 断 。 


5. 7 分支 预测 

在 5.2.6 节 ， 我 们 研究 了 由 于 分 支 导 致 的 流水 线性 能 下 降 的 现象 。 我 们 看 到 分 支 本 身 引 
发 了 很 多 问题 ， 而 条 件 分 支 冒 险 和 相对 地 址 分 支 会 加 剧 这 些 问 题 。 在 前 面 的 框 5.4 中 我 们 简 
单 介绍 了 分 支 预测 并 认为 预测 执行 ( 见 框 5.5) 是 降低 分 支 开销 (branch penalty) 的 一 种 
办 法 。 

在 本 节 中 ,我们 首先 对 由 于 分 支 引发 的 性 能 下 降 问 题 做 一 个 总 结 ， 然 后 讨论 用 于 减少 此 性 
能 下 降 并 与 预测 执行 能 力 相 关联 的 分 支 预测 方法 。 回 想 我 们 之 前 介绍 的 方法 中 所 特有 的 问题 ， 
这 些 问 题 使 得 分 支 引 发 的 性 能 降低 成 为 计算 机 体系 结构 设计 师 心 中 永远 的 痛 。 

在 理想 世界 中 ， 我 们 可 以 训练 程序 员 避 免 使 用 分 支 指令 ， 但 当 这 些 指 令 出 现时 ， 本 节 所 介绍 
的 专用 硬件 仍 将 需要 ， 并 且 也 是 CPU 性 能 研究 的 热点 。 


5.7. 1 分 支 预测 的 必要 性 


首先 ， 我 们 概括 一 下 分 支 所 带 来 的 问题 。 考 虑 以 下 代码 在 一 个 四 级 流水 线 ( 取 指 、 译 码 、 
执行 、 写 回 ) 上 执行 : 
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i ADD R1, R2, R3 
2 B loopl 

i3 ADD RO, R2, R3 
i4 AND R4, R2, B3 


loopl: STR R1, locationA 

不 建立 预约 表 ， 我 们 执行 开始 的 几 个 周期 : 

。 i 被 取 指 。 

。 i2 被 取 指 ， 同 时 1 被 译 码 。 

。 23 被 取 指 ， 同 时 讼 被 译 码 并 且 i1 被 执行 。 在 这 个 周期 的 末尾 ，CPU“ 知 道 ” 讼 是 一 条 分 支 

指令 。 

此 时 ， 纪 已 经 被 取 入 流水 线 。 然 而 ， 由 于 讼 是 一 条 分 支 指令 ， 因 此 正确 的 操作 应 该 是 将 
loopl 所 标记 的 指令 作为 下 一 个 周期 执行 的 指令 。 由 此 i3 应 该 被 清除 出 流水 线 并 取 人 正确 的 指 
令 。 清 除 的 工作 将 会 在 流水 线 中 形成 一 个 “气泡 ”， 从 而 降低 了 流水 线 的 效率 。 

在 5.2.8 节 中 我 们 也 讨论 过 相对 地 址 分 支 的 问题 : 分支 的 目标 地 址 (分支 指 令 后 应 该 执行 的 
着 令 的 地 址 ) 通常 是 一 个 以 当前 程序 计数 器 (PC) 为 基准 的 偏 移 量 ， 保 存在 分 支 指令 中 。 所 以 
CPU 党 要 使 用 ALU 将 偏 移 量 与 PC 相 加 计算 出 下 一 条 指令 的 地 址 。 

在 上 面 给 出 药 例 子 中 ， 如 果 分 支 的 地 址 〈 在 这 个 例子 中 是 loopl 所 指 指令 的 位 置 ) 需要 通过 
计算 得 出 ， 那 么 在 分 支 指令 被 译 码 后 还 需要 另 一 个 周期 。 通 常情 况 下 ， 使 用 这 种 技术 的 处 理 器 会 
立即 将 流水 线 清空 并 执行 分 支 。 操 作 序 列 如 下 所 示 : 

e i 被 取 指 。 

万 被 取 指 ， 同 时 纪 被 译 码 
芭 被 取 指 ， 忆 被 译 码 ， 并 且 间 被 执行 。 
太 被 取 指 ，i3 被 译 码 ，z2 被 执行 (这 意味 着 分 支 的 目标 地 址 将 通过 ALU 计算 出 来 ) ， 并 
且 红 的 结果 被 写 回 。 
ea 的 结果 即 分 支 的 目标 地 址 被 写 回 一 一 但 写 回 的 地 址 是 PC 而 不 是 其 他 寄存 器 ， 同 时 流 
水 线 被 复位 (丢弃 总 和 许 )。 

。 分 支 地 址 处 的 指令 被 取 指 。® 

至 此 ， 我 们 还 没有 提 到 条 件 分 支 冒险 的 情况 ， 这 种 情况 下 流水 线 需 要 等 待 分 支 指 令 之 前 的 
条 件 设 团 指 令 计算 完成 来 决定 是 否 执行 分 支 。 

然而 ,我们 已 经 对 用 于 缓解 分 支 问题 的 预测 进行 了 讨论 。 总 体 而 言 ， 预 测 执行 是 在 等 待 分 支 
条 件 得 出 结果 前 或 分 支 地址 计算 完成 前 执行 某 一 个 分 支 路 径 。 在 预测 执行 的 路 径 执行 完 前 ， 处 
理 器 确定 该 预测 是 正确 〈 此 时 所 预测 执行 的 指令 可 以 完成 ) 或 不 正确 (此 时 所 预测 执行 的 指令 
及 其 结果 将 被 抛弃 ) 。 

在 某 些 处 理 器 上 ， 预 测 路 径 是 不 确定 的 ， 例 如 总 是 预测 会 执行 分 支 ， 或 总 是 预测 不 执行 分 
支 。 当 然 ， 在 不 考虑 其 他 因素 的 情况 下 ， 这 种 预测 的 正确 性 总 是 很 难 超过 50% 。 在 编译 器 的 帮 
助 下 ， 让 编译 器 组 织 的 代码 在 有 任何 分 支 的 地 方 更 多 地 走 所 预测 的 路 径 。 

实际 上 ， 预 测 是 在 赌博 : 猜测 某 一 条 路 径 被 执行 。 正 确 的 猜测 开销 小 ， 因 为 在 此 情况 下 ， 处 
理 器 通常 不 会 有 流水 线 停顿 。 而 错误 的 猜测 将 会 引发 流水 线 停顿 ， 因 为 错误 的 执行 需要 从 流水 
线 上 清除 。 

一 种 更 精细 的 预测 是 分 支 预 测 ， 它 通过 如 下 的 信息 进行 更 智能 的 猜测 : 





日 ”需要 注意 的 是 ， 许 多 处 理 器 将 会 在 更 早 一 个 周期 对 该 指令 取 指 ， 这 是 通过 将 从 ALU 计算 所 得 到 的 分 支 地 址 直接 
输出 到 地 址 总 线 上 (数据 转发 的 一 种 形式 ) 实现 的 ， 并 同时 将 结果 写 人 PC。 
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。 过 去 的 行为 
。 代码 域 / 地 址 
。 编译 器 在 代码 中 给 出 的 上 暗示 (例如 执行 /不 执行 指示 位 一 一 TDTBS) 
211 动态 分 支 预测 通常 依赖 一 些 过 去 的 行为 来 预测 未 来 的 分 支 ， 这 在 框 5. 4 中 有 总 结 。 当 CPU 
看 到 一 个 分 支 时 ， 它 通过 预测 器 快速 地 决定 执行 哪 条 路 径 。 然 后 ， 当 实际 的 分 支 结果 出 来 后 ， 它 
会 更 新 预测 器 ， 这 是 为 了 让 未 来 的 预测 更 准确 一 些 。 
我 们 将 对 7 种 不 同 的 预测 方法 分 别 进行 探讨 ， 研 究 它们 的 操作 和 性 能 : 
。 单 工 位 预测 器 
。 双 位 预测 需 
。 计数 器 和 移 位 器 预测 器 
局 部 分 支 预测 器 
。 全 局 分 文 预测 器 
。 G 选择 预测 器 
。 G 共享 预测 器 
在 这 些小 节 之 后 ， 将 会 讨论 混合 使 用 以 上 技术 (5.7.9 节 )， 然 后 讨论 使 用 分 支 目标 缓冲 
(5.7.10 节 )。 


5.7.2 单 T 位 预测 器 


在 一 个 比较 简单 的 单 了 位 预测 器 机 制 中 ， 当 了 标志 被 设置 为 1 时 表示 需要 执行 分 支 ， 而 当 被 
设 为 0 时 表示 不 执行 分 支 。 在 执行 完 每 条 分 支 指令 后 《 即 所 有 的 条 件 及 其 他 相关 因素 都 被 解决 
后 ) 会 更 新 了 标志。 全 局 的 了 工 位 预测 器 硬件 开销 很 小 ， 因 为 整个 CPU 只 有 一 个 了 位 执行 预测 。 

无 论 何 时 遇 到 分 支 指令 ， 流 水 线 都 会 根据 T 位 的 状态 进行 预测 。 换 名 话说， 如 果 上 一 个 分 支 
指令 执行 了 分 支 (T=1)， 则 下 一 个 分 支 指令 也 被 预测 为 需要 执行 分 支 。 相 反 ， 如 果 上 一 个 分 支 
指令 没有 执行 (T=0) ， 则 下 一 个 分 支 指令 被 预测 为 不 执行 分 支 。 这 种 预测 器 制 并 不 是 智能 的 ， 
却 有 令 人 意 想 不 到 的 好 效果 ， 特 别 是 在 编译 器 支持 的 情况 下 。 从 根本 上 说 ， 当 需要 执行 的 代码 存 
在 大 量 的 简单 循环 时 ， 这 是 一 种 好 方法 。 

例如 ， 以 下 是 一 段 ARM 风格 的 汇编 代码 ， 初 始 时 ，R1 =1，R2 =4: 

il loop: SUBS R2, R2, R1 ;R2=R2— RI1 

2 BGT loop ; 当 结果 大 于 0 时 ， 执 行 分 支 


现在 在 一 个 具有 全 局 T 位 预测 器 的 CPU 上 执行 这 段 代码 ， 来 验证 这 种 预测 器 在 应 对 这 种 简 
单 循 环 时 表现 得 有 多 优秀 : 


















































记录 il 2 a | 2 i 2 | a 2 

HI 1 1 1 1 1 I 1 1 

R2 3 3 2 2 1 1 0 0 

T 位 一 1 1 1 1 1 1 0 

分 支 一 执行 一 执行 一 执行 一 不 执行 
212 正确 一 一 一 是 一 是 一 不 

















日 ”执行 /不 执行 指示 位 (take/ don ttake bit，TDTB) 通过 智能 编译 器 插入 在 代码 中 ,用 于 告诉 预测 单元 在 当前 位 置 
上 最 有 可 能 的 分 支 结 果 。 注 意 到 编译 器 比分 支 单元 更 清楚 分 支 的 情况 一 一 编译 器 可 以 “看 到 ”未 来 ， 知 道 循 环 、 
函数 、 程 序 的 整体 内 容 ， 也 知道 在 每 条 路 径 上 下 一 条 指令 是 什么 。 
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从 这 个 跟踪 表 (trace table) 最 左 列 开始 ， 当 订 执行 完 (减法 ) 后，R2 的 内 容 由 4 变 为 3。 
在 下 一 个 周期 ， 当 这 〈 分 支 指令 ) 执行 完 后 ， 因 为 SUBS 指令 的 结果 大 于 0， 所 以 执行 分 支 。 在 
第 一 次 循环 中 ， 由 于 预测 器 初始 条 件 不 定 ， 所 以 不 能 进行 预测 。 

正如 所 跟踪 过 程 所 示 ， 循 环 在 重复 执行 两 次 后 退出 (在 最 后 一 次 循环 后 没有 跳 回 循环 的 起 
始 处 )。 在 第 二 次 循环 中 ， 预 测 器 学 习 到 上 一 个 分 支 被 执行 ， 所 以 正确 地 预测 出 下 一 个 分 支 需 要 
执行 。 同 样 ， 在 第 三 次 循环 中 也 预测 正确 ， 而 在 最 后 一 次 预测 中 错 了 。 

总 体 而 言 ， 该 循环 中 第 一 次 磁 到 分 支 时 有 可 能 是 不 正确 的 ， 这 取决 于 之 前 执行 代码 的 T 位 预 
测 融 状 态 。 最 后 一 次 分 支 也 没有 预测 正确 ， 但 在 循环 体 中 ,不 管 重 复 多 少 次 循环 ， 预 测 都 正确 。 
对 于 任意 大 小 的 简单 循环 ， 这 种 结论 都 是 正确 的 : 不 管 让 和 这 之 间 存 在 多 少 代 码 ， 只 要 不 包含 
分 支 指 令 ， 预测 的 结果 都 会 如 此 。 

遗憾 的 是 ， 循 环 极 少 会 如 此 的 简单 ， 通 常情 况 下 在 循环 体 的 代码 中 都 会 包含 其 他 分 支 指令 。 
让 我 们 通过 另 一 段 简单 例子 来 说 明 这 个 问题 : 

中 loop: SUBS R2, R2, R11 ;R22=R2—RI1 

2 BLT error ;如 果 结 果 小 于 0， 则 执行 分 支 

i3 BGT loop ; 如果 结果 大 于 0， 则 执行 分 支 

我 们 再 次 通过 一 个 带 有 一 个 全 局 T 位 预测 器 的 CPU 执行 这 段 代 码 ， 以 检测 这 种 预测 器 遇 到 
这 种 代码 时 的 预测 情况 。 这 一 回 ， 我 们 假设 初始 条 件 为 R2 =3， 这 是 为 了 减少 跟踪 表 中 列 的 数 
量 。 需 要 注意 ， 表 中 用 于 预测 的 T 位 值 是 分 支 指令 前 一 列 的 值 ， 因 为 每 一 列 显示 的 是 每 条 指令 执 
行 后 的 状态 : 









































记录 i 认 3B | 站 
R1 1 1 1 1 
R2 2 2 2 上 
T 位 一 0 1 | 1 
分 支 = 不 执行 ”| 执行 | 加 
正确 一 站 不 一 








在 这 种 情况 下 ， 预 测 器 的 性 能 很 差 : 预 
测 器 的 每 一 个 预测 都 失败 了 。 遗 憾 的 是 ， 这 
种 结果 对 于 简单 T 位 预测 器 来 说 太平 常 了 。 


区 
5 


正如 我 们 在 下 一 节 将 要 看 到 的 那样 ， 对 这 种 AZ 
NT 
预测 器 加 以 改进 : 对 每 一 次 预测 增加 一 些 复 KAN 2 
杂 度 ， 为 每 一 个 分 支 采用 单独 的 预测 器 。 首 YG A 
Sg 


先 ， 介绍 一 下 双 位 预测 器 。 


5.7.3 双 位 预测 器 
pe 图 5-12” 双 位 预测 器 状态 转移 图 ， 其 中 有 DT 确定 执 


虽然 双 位 预测 器 从 概念 上 讲 与 T 位 预测 行 )、PT (可 能 执行 )、PN (可 能 不 执行 ) 
器 有 点 类 似 ， 但 却 是 用 前 两 次 分 支 的 结果 来 以 及 DN (确定 不 执行 》 四 种 状态 。 前 两 种 
ee ee 状态 表示 转移 可 能 会 执行 ， 后 两 种 状态 表示 

人 转移 可 能 不 执行 。 在 分 支 条 件 确定 后 ， 预 测 
器 那样 只 用 前 一 次 分 支 的 结果 。 这 种 方法 使 器 的 状态 根据 实际 执行 (T) 或 不 执行 
用 了 如 图 5-12 所 示 的 状态 机 。 这 种 方法 也 称 (NT) 分 支 来 更 新 状态 





晶 ” 这 种 跟踪 表 并 不 能 完全 取代 预约 表 ， 因 为 它 既 人 不 能 给 出 在 某 一 个 确定 时 间 流 水 线 发 生 的 情况 ， 也 不 能 指出 每 条 
指令 需要 多 少 个 周期 去 执行 。 它 只 能 给 出 每 条 指令 在 顺序 执行 后 系统 的 状态 。 
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为 双 模 ( bimodal) 预测 器 。 

由 于 有 4 种 状态 (使 用 两 位 来 描述 状态 ) ， 这 种 预测 器 将 会 比 单 了 位 预 预测 器 精确 。 这 么 说 太 
笼统 ， 但 在 一 个 氢 套 循环 的 例子 中 〈( 此 时 单 T 位 预测 器 的 性 能 非常 差 ) ， 双 位 预测 器 获得 了 更 好 
的 性 能 。 

为 了 说 明 这 种 人 情况， 我 们 使 用 与 前 一 节 相 同 的 代码 : 


了 loop: SUBS R2, R2, R1 ;R2=R2— 及 1 
站 BLT error ; 如 果 结 果 小 于 0， 则 执行 分 支 
3 BGT loop ; 如 果 结 果 大 于 0， 则 执行 分 支 


这 一 回 我 们 将 使 用 一 个 带 有 全 局 双 位 预测 器 的 CPU 来 执行 这 段 代 码 。 我 们 再 次 假设 初始 条 
件 为 R2 =3，R1 =1， 并 且 预 测 器 初始 状态 为 “DT"”: 
























































记录 il i2 3 红 i2 3 1 2 3 
R1 1 1 1 1 1 1 | 1 1 1 
R2 2 2 2 | 1 | 1 1 0 0 0 
预测 器 DT PT DT DT PT DT DT PT DN 
分 文 一 不 执行 执行 | 一 不 执行 执行 | 一 不 执行 不 执行 
正确 一 不 一 不 是 一 不 不 





个 跟踪 表 与 5. 7. 2 节 的 很 相似 ,但 需要 精确 地 阅读 这 个 表 。 记 住 每 一 列 显示 的 是 这 一 列 所 
指示 的 指令 执行 完毕 后 处 理 器 的 状态 ， 并 且 在 表 中 没有 时 序 上 的 信息 ， 只 给 出 了 简单 的 操作 序 
列 。 例 如 ， 先 找到 忆 热 行 的 位 置 ， 在 这 列 中 我 们 看 到 左边 的 R1 和 R2 没有 发 生变 化 ， 但 由 于 分 
支 没有 被 执行 ， 它 将 预测 器 的 状态 从 “DT” 改 变 为 “PT”《〈 以 黑体 字 显 示 ) 。 当 i3 执行 完毕 时 ， 
由 于 分 文 被 执行 (以 黑体 字 显 示 ) ， 预 测 器 的 状态 又 转 回 “DT"”。 在 冯 开始 执行 时 ， 预 测 器 的 状 
态 还 是 “PT” ， 因 此 预测 器 观测 分 支 需要 执行 ， 而 事实 上 这 是 一 个 正确 的 预测 。 因 此 在 底部 以 黑 
体 字 显示 的 “是 ”表示 预测 正确 。 因 此 ， 在 确定 预测 正确 性 时 ， 需 要 将 预测 的 结果 与 前 一 列 的 
预测 进行 比较 。 

虽然 这 种 预测 器 对 于 所 有 的 分 支 不 会 都 预测 正确 ,但 它 对 循环 体内 不 在 循环 未 端的 其 中 一 
个 分 支 的 预测 都 是 正确 的 。 这 样 的 结果 介 于 单 了 位 预测 器 和 理想 预测 器 之 间 。 

接 下 来 更 严密 地 解释 这 种 预测 器 的 原理 : 单 工 位 预测 器 存在 一 些 问题 ， 而 双 位 预测 器 在 一 定 
程度 上 可 以 解决 这 些 问 题 。 但 如 果 双 位 预测 器 也 有 问题 ， 可 以 增加 更 多 的 位 来 解决 问题 吗 ? 答案 
足 肯 定 的 ， 因 为 总 体 而 言 使 用 更 多 资源 会 获得 更 好 的 性 能 。 然 而 ， 从 需求 上 来 说 ， 需 要 使 用 尽量 
小 的 硬件 资源 来 提高 尽量 高 的 性 能 。 

由 此 ， 我 们 需要 意识 到 ， 通 过 分 支 指令 这 的 结果 来 预测 i3 的 结果 是 非常 困难 的 。 用 过 去 这 
的 结果 来 预测 记 ， 用 过 去 3 的 结果 来 预测 妈 ， 才 会 得 到 更 好 的 结果 。 换 名 话说， 需要 为 不 同 的 
指令 分 配 单独 的 预测 器 。 事 实 上 ， 这 种 机 制 将 会 在 5. 7.5 节 介 绍 双 模 预测 器 时 碰 到 。 然 而 ， 接 下 
来 我 们 先 对 使 用 更 多 位 的 预测 器 进行 探讨 。 

5. 7. 4 计数 器 和 移 位 器 预测 器 

简单 的 饱和 计数 器 ( saturating counter) 在 执行 分 支 时 加 1， 在 不 执行 分 支 时 减 1。 这 种 计数 
器 可 以 保持 在 饱和 状态 而 不 会 循环 计数 ， 因 此 经 过 一 长 串 连 续 的 执行 分 支 后 ， 可 以 使 得 这 种 计 
数 器 达到 最 大 值 并 一 直 保 持 这 个 最 大 值 。 

对 于 基于 这 种 计数 器 的 分 支 预测 器 ， 就 可 以 只 通过 最 高 有 效 位 (MSB) 的 值 来 判断 。 因 为 
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当 MSB 为 1 时， 计数 器 的 值 为 其 最 大 什 的 一 半 或 一 半 以 上 ; MSB 为 0 时 ， 计 数 器 的 值 小 于 其 最 
大 值 的 一 半 。 

虽然 计数 器 是 一 种 相当 简单 的 硬件 ， 但 是 它 需 要 花 很 长 一 段 时 间 去 “学 习 ” 在 什么 时 候 执 
行 “ 通 常 执行 分 支 ”( normally- taken》 循环 与 “通常 不 执行 分 支 ” (normally-not- taken) 循环 间 
的 转换 。 另 外 ， 它 在 赂 套 循 环 中 带 有 分 支 时 性 能 不 好 。 

与 计数 器 在 硬件 尺寸 上 相似 的 是 移 位 器 。 一 个 位移 位 器 存放 着 过 去 n 个 分 支 的 结果 。 无 论 
什么 时 候 处 理 器 执行 了 一 条 分 支 指 令 ， 其 结果 都 会 进入 移 位 器 ， 同 时 此 前 的 结果 都 会 向 左 或 向 
右 移动 一 位 ， 而 最 先进 入 移 位 器 的 结果 就 会 被 丢弃 。 例 如 ， 以 1 表示 执行 分 支 ，0 表示 不 执行 分 
支 ， 而 移 位 器 中 存放 着 过 去 8 个 分 支 的 结果 (NT，NT，NT，T，T，NT，T，NT) ， 其 值 为 
00011010。 如 果 下 一 个 分 支 执行 ， 移 位 器 的 内 容 将 都 向 左 移动 1 位 ， 丢 弃 最 左边 的 0， 而 1 会 进 
入 移 位 器 最 右 端 ， 更 新 为 00110101。 虽 然 可 以 通过 移 位 器 的 内 容 进行 分 支 预 测 ， 但 是 极 少 单独 
使 用 以 上 我 们 提 到 的 技术 进行 预测 ， 而 是 将 这 些 技术 混合 使 用 。 至 此 ， 我 们 已 经 按 顺序 介绍 了 4 
种 分 支 预 测 器 。 


5.7.5 局 部 分 支 预 测 器 


简单 观察 低级 语言 会 发 现 ， 有 些 分 支 总 是 会 执行 的 ， 而 有 些 却 总 是 不 执行 。 全 局 单位 预测 
器 和 全 局 双 位 预测 器 对 CPU 内 所 有 分 支 的 处 理 看 起 来 都 是 一 样 的 。 更 明智 的 方法 是 局 部 处 理 每 
个 分 支 ， 而 不 是 采用 全 局 的 方法 。 这 与 4.4.4 节 所 提 到 的 局 部 性 原则 有 关 : 例如 ， 假 设 库 代码 中 
的 分 支行 为 与 用 户 代码 中 的 分 支行 为 是 不 一 样 的 ， 所 以 应 该 对 它们 采用 不 同 的 预测 方法 。 其 至 
在 用 户 代码 中 ， 不 同 区 域 的 程序 所 包含 的 分 支 也 是 不 同 的 。 

正如 之 前 所 提 到 的 ， 可 以 为 每 一 个 单独 的 分 支 分 配 一 个 单位 预测 器 (或 者 双 位 预测 器 ) 。 
然而 ， 在 一 些 代码 中 ， 可 能 会 有 几 千 条 甚至 几 百 万 条 分 支 指令 ， 假 如 为 每 条 分 支 指令 都 分 配 一 个 
预测 器 ， 硬 件 开销 就 实在 太 大 了 。 

所 以 在 全 局 预测 器 和 为 每 个 分 支 分 配 一 个 预测 器 之 间 有 一 个 折 中 。 这 也 引出 了 预测 器 
块 〈(a bank of predictors) 的 概念 。 在 一 定 程 度 上 ， 这 与 cache ( 见 4.4 节 ) 的 硬件 组 织 相 类 
似 ， 同 时 也 会 引发 类 似 的 问题 : 查找 
时 间 (look-up time)。 使 用 这 种 机 制 
时 ， 每 当 遇 到 一 条 分 支 指令 ， 预 测 器 
就 会 为 这 条 分 支 指令 进行 查找 ， 然 后 
确定 预测 结果 。 随 着 需要 进行 搜索 的 \ 
预测 器 越 来 越 多 ， 查 找 的 时 间 就 会 变 \ | 
长 ， 甚 至 会 超过 1 个 流水 线 周期 。 因 由 a 
此 ， 计 算 机 体系 结构 设计 师 的 重点 是 和 
使 用 更 少 的 预测 器 获得 更 智能 的 

的 PC 地 二 用 于 预测 ， 然 后 更 新 计数 器 
图 5-13 是 分 支 历史 记录 饱和 计数 


Te | 图 5-13 局 部 分 支 预测 器 示意 图 。 它 带 有 系列 分 支 历 史记 
人 录 人 饱和 计数 器 ， 它 们 使 用 每 条 分 支 指令 所 在 地 址 的 












tCcounter 0 4 
VIILIIIIIIIIVIIVIVIIIIVIIIIV MSB 

+ counter ] ; 
AAANAAAAAAAAAALAAAAAAAAAAA 
+ counter 2 
FIIIIIITIIITIITIITIIIIIIIVIS IS. 
+ counter 3 


分 支 
预测 





令 都 分 配 一 个 计数 器 预测 器 ， 而 是 只 低位 地 址 进行 索引 (由 此 不 同 的 计数 器 映射 到 了 不 
有 2 个 计数 器 预测 器 ， 正 在 预测 的 分 同 组 的 分 支 指令 )。 正 如 在 5.7.4 节 里 解释 的 ， 计 数 


支 指令 分 配 在 不 同 的 地 址 上 。 器 的 最 高 有 效 位 用 于 进行 分 支 预测 
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这 种 预测 器 使 用 地 址 线 的 低位 来 选择 使 用 哪个 计数 器 为 该 分 支 指 令 做 预测 (该 计数 器 也 
理所当然 被 该 指令 的 分 支 结果 更 新 ) ， 例 如 地 址 0 上 的 分 支 指令 使 用 0 号 计数 器 ， 地 址 1 上 的 分 
支 指令 使 用 1 号 计数 器 ， 以 此 类 推 。 如 果 只 有 8 个 计数 器 , 0 号 计数 器 就 会 由 地 址 0、8 、16、 
32 、64 等 上 的 分 支 指令 共同 使 用 。 

注意 预测 器 块 中 的 饱和 计数 器 可 以 使 用 单 T 位 预测 器 或 双 位 预测 器 来 蓉 代 。 最 重要 的 是 引 
和 人 了 局 部 性 原则 : 至 少 有 一 部 分 预测 都 是 基于 地 址 的 。 接 下 来 我 们 使 用 之 前 在 全 局 单 T 位 预测 器 
和 双 位 预测 器 使 用 过 的 代码 来 说 明 这 种 局 部 性 预测 : 


il Joop: SUBS R2, R2, R1 ;R2=R2—RI]l 





























2 BLT error ; 如 果 结 果 小 于 0， 则 执行 分 支 

3 BGT loop ;如果 结 果 大 于 0， 则 执行 分 支 

这 回 我 们 使 用 带 有 如 图 5-13 所 示 的 局 部 预测 器 的 CPU 来 运行 这 段 代码 。 我 们 仍旧 假设 初始 

条 件 R2 =3， 而 预测 器 的 计数 器 为 4 位 并 且 在 执行 前 被 初始 化 为 0111。 指 令 i 的 位 置 为 地 址 0。 

记录 计 i i3 i 论 i3 i 论 3 
RI 1 1 1 1 I 1 1 1 1 
R2 2 2 2 1 1 | 1 0 0 0 
co0 0111 0111 0111 0111 0111 0111 0111 oll 0111 
cl 0111 0110 0110 0110 0101 0101 0101 0100 0100 
2 0111 0111 1000 1000 1000 1001 1001 1001 1010 
分 支 一 不 执行 执行 一 不 执行 执行 一 不 执行 不 执行 
正确 一 是 不 一 是 是 一 | 是 不 



































这 个 跟踪 表 这 回 给 出 了 预测 器 3 个 计数 器 (c0、cl 和 c2) 的 情况 ， 由 于 代码 从 地 址 0 开始 ， 
所 以 这 3 个 计数 器 分 别 映射 了 指令 让 、z 和 妆 的 地 址 。 在 这 个 例子 中 ， 预 测 器 的 0 号 计数 器 c0 
并 不 会 发 生 改变 ， 因 为 在 这 个 地 址 上 没有 分 支 指 令 去 更 新 这 个 计数 器 。 而 其 他 两 个 计数 器 则 被 
其 映射 地 址 上 的 分 支 指令 的 执行 结果 所 更 新 。 表 中 每 次 预测 所 用 的 计数 器 都 用 黑体 字 标 出 。 

每 一 次 分 支 预测 都 是 通过 检查 与 相关 预测 计数 器 的 MSB 来 进行 ， 该 预测 器 来 自 当 前 指令 的 
前 一 列 ( 一 如 既往 ， 每 一 列 所 包含 的 状态 都 是 前 边 指令 执行 的 结果 ， 并 且 预 测 都 是 发 生 在 指令 
执行 之 前 )。 

这 种 预测 器 的 性 能 与 之 前 所 遇 到 的 预测 器 有 很 大 不 同 。 第 1 条 分 支 指令 在 每 次 循环 中 都 被 正确 
预测 。 第 2 条 分 支 指令 在 第 1 次 循环 和 最 后 一 次 循环 中 被 错误 预测 ， 而 在 循环 内 部 ， 无 论 重 复 几 次 
循环 或 中 间 包 含 多 少 条 非 分 支 指令 ， 都 被 正确 预测 。 这 相对 于 5.7. 3 节 中 的 那个 例子 有 不 少 改进 。 

遗憾 的 是 ， 故 事 到 此 并 没有 结束 ， 因 为 当 预 测 器 变 得 强大 后 ， 就 会 受 如 框 $. 10 所 示 的 混合 
效果 (aliasing effect) 影响 。 

局 部 预测 的 混合 
在 一 个 拥有 4 组 的 局 部 3 位 饱和 计数 器 预测 器 的 处 理 器 上 执行 以 下 汇编 代码 : 


0x0000 loop0 DADD R1, R2, R3 
0x1001 BGT loopl 
0x1002 B loop2 

0x1020 loopl DSUB R3, R3, R5 
0x1021 B loopd 





全 ”对 于 一 些 处 理 器 如 ARM， 地 址 采用 字 节 计数 ， 但 其 指令 超过 一 个 字 节 。 人 在 这 种 情况 下 ， 由 二 指令 地 址 都 站 0、 
4、8 、16 等 ， 因 此 所 有 ARM 指令 地 址 线 的 A0 和 Al 都 永远 为 0。 所 以 这 些 地 址 线 将 被 局 部 预测 器 忽略 ， 而 使 用 
从 42 开始 的 地 址 线 。 


第 5 章 提高 CPU 性 能 


假设 R2 =0，R3 =2，R5 =1,，c0、cl、c2 和 c3 都 被 初始 化 为 011， 且 loop2 所 指 的 代码 也 存在 。 


地 址 ”| 结果 预测 器 | 正确 有 地 址 预测 器 
0x0000 R1 一 2 0x1020 


0x1001 E14 100 0x1021 人 |] 

















0x1020 0x0000 


0x1021 执行 clt-101 0x1001 cl+—110 





0x0000 0x1002 行 c2*-100 


0x1001 | 执行 clt-110 
































在 这 个 表 中 ， 所 执行 指令 的 地 址 显示 在 最 左 列 ， 其 次 是 执 令 执行 的 输出 结果 〈 即 寄存 器 发 生 的 改变 ) ， 
第 三 列 指 出 分 支 指令 的 分 支 是 否 执行 ， 第 四 列 为 本 次 预测 所 更 新 计数 器 的 值 ， 预 测 正确 与 否 在 最 后 一 列 给 出 。 

总 体 而 言 ， 这 种 预测 很 成 功 。 然 而 ， 需 要 注意 的 最 重要 的 一 点 是 ， 这 里 只 使 用 了 两 个 预测 器 。 计 数 器 
cl 被 两 条 分 支 指令 共同 使 用 ( 即 混合 ) 一 一 在 地 址 0x0001 和 地 址 0x0021 上 的 分 支 指令 。 因 此 ， 虽 然 提高 
了 局 部 预测 的 硬件 能 力 ， 但 是 我 们 并 没有 高 效 利用 它 。 为 了 更 好 地 在 不 同 分 支 中 使 用 这 些 计数 器 ， 我 们 需 
要 引入 其 他 一 些 机 制 ， 其 中 两 种 我 们 将 在 5.7.7 节 和 5.7.8 节 中 描述 。 


5.7.6 全 局 分 支 预测 器 


基本 全 局 分 支 预测 器 是 尝试 使 用 一 种 特殊 的 方法 在 基本 局 部 分 支 预测 器 基础 上 进行 改进 。 
它 将 上 下 文 引 和 分支 预测 器 中 。 我 们 已 经 知道 了 分 支 预测 的 局 部 性 ， 但 是 局 部 分 支 预测 中 的 混 
释 问 题 使 得 在 相同 的 预测 器 中 不 同类 型 的 软件 都 有 分 支 地 域 性 。 

在 这 个 全 局 分 支 预测 器 中 ， 使 用 了 全 局 移 位 寄存 器 而 不 是 低位 地 址 位 〈 这 两 种 部 件 在 5.7.4 
节 中 都 有 简单 介绍 ) 对 计数 器 预测 器 阵列 进行 索引 。 其 整体 结构 如 图 5-14 所 示 ， 看 起 来 与 局 部 
预测 器 很 相似 ， 除 了 我 们 将 要 进行 讨论 的 计数 器 选择 机 制 之 外 。 










土 counter 0 
AAAAAAAZAZAAAAAAAAAAAZAVAAAA 
+ counter 1 
TITIIIIIVIIIIIIIIIVIIIIOLI, 


+ counter 2 






决定 执行 \ 
或 不 执行 














+ counter 3 关 
GY 1 
+ counter 2 一 1 及 
根据 寄存 器 的 
回国 国 图 图 。 | /位 内 容 选 择 计数 器 


图 5-14 ”全 局 预测 器 示意 图 。 它 带 有 一 组 计数 器 ， 它 们 通过 存储 了 前 大 个 分 
支 指令 结果 的 移 位 寄存 器 的 内 容 进 行 索引 。 与 以 往 一 样 ， 当 分 支 执 
行 时 ， 与 之 相关 的 计数 器 增加 ; 当 分 支 不 执行 时 ， 计 数 器 减少 。 计 
数 器 会 饱和 而 不 是 循环 ， 由 此 它们 的 最 高 有 效 位 可 用 于 预测 分 支 。 
全 局 移 位 寄存 器 在 每 条 分 支 结果 确定 后 进行 更 新 


由 于 被 选择 用 来 对 特定 分 支 进行 预测 的 计数 器 的 选择 是 基于 过 去 上 条 分 支 指令 的 结果， 因此 
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这 种 预测 在 一 定 程 度 上 依赖 的 是 这 个 分 支 指 令 是 如 何 到 达 的 ， 而 不 是 这 个 分 支 指令 位 在 内 存 的 
什么 位 置 。 换 名 话说 ， 它 更 像 一 个 基于 跟踪 的 选择 器 。 

在 一 些 条件 下 ， 这 种 预测 选择 机 制 是 很 明智 的 : 例如 ， 一 个 简单 的 常规 库 函 数 会 被 一 段 代 码 
中 不 同 的 地 方 多 次 调用 ， 它 被 调用 时 的 行为 《相当 于 分 支行 为 ) 取决 于 要 求 它 做 什么 ， 即 如 何 
被 调用 (以 及 在 哪里 被 调用 ) 。 通 过 观察 许多 常规 软件 的 执行 轨迹 可 以 看 到 ,许多 复杂 的 分 支 序 
列 都 被 重复 执行 。 通 过 使 用 这 种 预测 器 ， 可 以 让 分 支 序列 来 选择 预测 器 ， 使 得 不 同 的 计数 器 与 不 
同 的 分 支 映 射 得 更 紧密 。 

我 们 通过 另 一 个 简单 的 例子 来 检查 一 下 这 种 全 局 预测 器 的 操作 : 


站 | loopl ADD R1, R1, R2 
2 BEZ lpend 

3 SUB R8, R8, Ri1 
i4 B loopl 

13 lpend NOP 


我 们 假设 初始 时 RI =3，R2 = -1，R8 =10， 并且 这 是 一 个 4 位 全 局 寄存 器 (GR， 初 始 为 
0000) ， 即 有 16 个 计数 器 预测 器 ， 每 个 为 3 位 ， 被 初始 化 为 011。 


























地 址 结果 分 支 GR | 预测 器 | 正确 地 址 结果 分 支 GR | 预测 器 | 正确 
R1<—2 0000 i3 R87 0010 
+ + + 

i2 不 执行 | 0000 |coe-010| 是 i4 执行 0101 |c5e-100| 不 
i3 R8+—8 0000 i R1<—0 0101 
i4 执行 0001 |cie-100| 不 i2 执行 1011 jcll 一 100 不 
R1<4-1 0001 i5 1011 

- . TT 
12 不 执行 | 0010 ic2:010| 是 









































以 上 表 的 结构 与 前 面 几 节 遇 到 的 很 相似 ，GR 的 值 在 每 :一行 i 一 个 GR， 并 
且 在 每 个 分 支 指令 之 后 都 被 更 新 。 虽 然 这 个 代码 循环 了 3 次 ,但 最 显著 的 特点 是 每 一 个 分 支 
都 被 分 配 到 了 不 同 的 计数 器 预测 器 上 。 即 使 是 在 同一 个 分 支 中 的 每 次 执行 使 用 的 也 是 不 同 的 
计数 器 。 

总 体 而 言 ， 这 种 预测 器 制 避免 了 混 全 问题， 而 分 支 指令 在 不 同 的 计数 器 预测 器 中 “混合 ” 
在 一 起 , 但 遗憾 的 是 ， 其 分 支 历史 被 丢弃 一 一 而 我 们 是 可 以 用 历史 记录 来 很 好 地 对 z2 特别 是 计 
分 支 进行 很 好 的 预测 的 。 

已 经 证 实在 比 这 个 小 代码 大 很 多 的 例子 中 ， 这 种 预测 器 的 性 能 十 分 好 : 它 执行 基于 
循环 的 测试 代码 获得 了 前 所 未 闻 的 超过 90% 的 精确 度 。 然 而 ， 其 基本 缺点 还 是 存在 的 : 局 
部 性 信息 丢失 。 因 此 我 们 开始 转向 将 基于 行为 跟踪 选择 的 全 局 寄存 器 与 基于 地 址 的 局 部 选 
择 进 行 混合 。 


5.7.7 6 选择 预测 器 


如 图 5-15 所 示 ，G 选择 预测 器 (gselect predictor) 通过 考虑 将 要 被 预测 分 支 的 地 址 对 预测 器 
进行 更 新 。 事 实 上 ， 用 于 为 确定 分 支 而 选择 特定 计数 器 预测 器 (或 了 位 或 双 位 预测 器 ) 的 大 位 
索引 是 由 一 个 位 全 局 寄存 器 与 PC 的 最 低 m 位 联合 组 成 的 。 
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+counter 0 
FIISIIIIVIISIIIIIIIIIIIIVIIIS SS. 


+ counter | 
PIIIIIITIIIITIIIIVIIIIIIIS SIS, 
1 + Counter 2 
IOIIILIIIIIIIIIIIIIIIIIIVS SSN 
+ Counter 3 


YY 


+ Counter 2 和 一 1 










决定 执行 
或 不 执行 











使 用 k=m+n 位 来 
选择 计数 器 





n 位 全 局 寄存 器 
加 辐 四 国 世 
分 支 指令 

PC 的 低产 位 
的 PC 地 址 


图 5-15 G 选择 预测 器 示意 图 。 它 有 一 组 计数 器 ， 通 过 存储 了 前 n 条 分 支 指令 结 
果 的 移 位 寄存 器 的 内 容 与 地 址 线 低 m 位 共同 进行 索引 。 同 样 ， 每 个 计 
数 器 在 分 支 执行 时 增加 ， 在 分 文 不 执行 时 减少 。 计数器 会 饱和 而 不 是 
循环 ， 因 此 计数 器 的 最 高 有 效 位 可 以 用 于 分 支 预测 。 全 局 移 位 寄存 器 
在 每 条 分 支 指令 确定 是 否 分 支 后 被 更 新 








例如 ， 如 果 丰 =10， 则 由 一 个 4 位 全 局 寄存 器 G 及 地 址 线 A 的 6 位 组 成 ， 其 10 位 索引 如 下 : 








据 报导 G 选择 预测 器 非常 适合 那些 小 的 独立 预测 器 块 ， 这 可 能 是 指 它 非常 适合 于 那些 资源 
受 限 的 误 入 式 系 统 。 而 当 块 变 大 ， 也 许 为 k>8 时 类 似 于 下 一 节 将 会 讨论 的 G 共享 机 制 ，G 选择 
预测 器 的 性 能 可 能 会 更 好 。” 


5.7.8 G 共享 预测 器 


G 共享 预测 器 是 5.7.7 节 中 G 选择 预测 器 的 精炼 。 将 如 图 5-16 所 示 的 G 共享 预测 器 与 如 
图 5-15 所 示 的 G 选择 预测 器 进行 比较 ， 唯 一 的 区 别 是 G 共享 预测 器 将 位 全 局 寄存 器 与 PC 的 低 
5 位 进行 了 蜡 或 ， 用 于 对 预测 器 阵列 进行 索引 。 

G 共享 预测 器 与 G 选择 预测 器 和 全 局 分 支 预测 器 一 样 ， 只 要 进行 适当 的 设置 和 调节 ， 都 可 
以 获得 超过 90% 的 预测 准确 度 。 然 而 ，G 共享 预测 器 和 G 选择 预测 器 都 是 在 块 相对 较 小 的 情况 
下 才能 获得 好 性 能 。 小 尺寸 块 〈 即 更 少 的 预测 计数 器 ) 意味 着 查找 过 程 可 以 变 得 很 快 。 除 了 特 
别 小 的 块 以 外 ，G 共享 预测 器 比 G 选择 预测 器 性 能 更 佳 ， 因 为 它 能 更 好 地 将 不 相关 的 分 支 指令 
分 布 到 不 同 的 预测 器 上 。 换 名 话说，G 共享 预测 器 可 以 看 到 分 支 在 计数 器 上 的 分 布 ， 而 G 选择 
预测 器 只 能 看 到 少数 计数 器 在 许多 分 支 指 令 上 的 划分 。 





日 ”回忆 一 下 前 而 的 讨论 ， 高 性 能 取决 于 很 多 内 素 ， 而 不 是 某 一 段 特定 的 代码 。 当 我 们 从 整体 上 预测 性 能 时 ， 是 没 
有 真正 的 代码 及 条 件 能 够 测试 出 某 种 机 制 的 优 劣 的 。 
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图 5-16 G 共享 预测 器 示意 图 。 它 也 拥有 一 组 计数 器 ， 通 过 存储 了 前 条 
指令 执行 结 崇 的 移 位 寄存 器 的 内 容 与 地 址 线 低 位 共同 进行 索引 
(根据 两 个 上 位 数字 异 或 的 结果 选择 计数 器 ) 。 同 样 ， 每 个 计数 器 
在 分 支 执行 时 增加 ， 在 分 支 不 执行 时 减少 。 计 数 器 会 饱和 而 不 是 
循环 ， 因 此 计数 器 的 最 高 有 效 位 可 以 用 于 分 支 预测 。 全 局 移 位 宕 
存 器 在 每 条 分 支 指令 确定 是 否 分 支 后 被 更 新 


5.7.9 混合 预测 器 


我 们 应 该 可 以 强烈 地 感觉 到 ， 不 同 程序 中 的 分 支 特性 应 该 会 千差万别 。 直 到 现在 ,我 们 已 经 
223] 提出 了 许多 预测 机 制 并 且 也 讨论 了 它们 各 自 的 优 缺 点 。 


隐 0 > 


2 

5 

{A SL 
_ 


现在 我 们 的 重点 是 要 找 出 一 种 性 能 最 好 的 分 
支 预测 机 制 。 但 是 ， 通 过 学 术 界 对 这 些 机 制 独立 
进行 的 测试 发 现 ， 它 们 都 是 分 别 对 某 一 类 代码 会 
获得 良好 的 性 能 。 因 此 ， 我 们 应 该 将 这 些 预测 机 
制 进行 组 合 。 

这 正 是 所 谓 的 混合 预测 器 。 它 是 将 多 种 预测 | 
机 制 集合 在 一 起 ， 预 测 时 通过 一 个 逻辑 选择 最 合 jZZZJBLZZ2 Mm AYIS 


GA GS "Eh GY 





适 的 预测 机 制 。 图 5-17 展示 了 在 A 和 B 两 种 预测 AAA 0 
机 制 中 进行 选择 的 方案 (与 5.7.5 节 的 双 模 预 测 2 YM 
器 看 起 来 有 些 类 似 ) 。 在 这 个 方案 中 ，A/B 选择 器 2 使 用 预测 器 B 3 
用 于 记录 A、B 两 个 预测 器 预 测 的 准确 性 。 哪 一 图 5-17 两 种 不 同 的 预测 器 ， 它 们 各 自 的 特点 
种 预测 器 预测 的 结果 最 准确 ， 就 选择 其 作为 整个 符合 某 种 特定 代码 类 蝶 的 需求 ， 可 以 
系统 的 预测 器 。 将 这 两 种 预测 器 结合 起 来 。 结 合 的 广 
ee a 法 之 一 是 采用 一 个 与 双 位 预测 器 十 分 
En 相似 的 双 位 状态 忧 ， 来 选择 蝴 佳 的 预 
的 区 域 ， 会 趋向 于 不 同 的 预测 器 ， 而 这 在 实际 测 测 方 式 。 在 这 个 状态 机 中 ， 如 果 两 个 
试 中 也 得 到 了 验证 。 陆 测 绒 在 任何 状态 部 预 测 正确 ， 我 们 


一 个 最 著名 的 混合 预测 器 的 例子 是 建立 在 就 认为 不 发 生 状 态 转 移 
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Alpha 21264 处 理 器 上 的 。 图 5-18 是 其 示意 图 。 在 该 图 中 ， 所 示 的 A/B 预测 器 用 于 选择 全 局 预测 
器 或 两 层 局 部 预测 器 。 






2 位 选择 需 
CAB 预测 句 ) 


分 支 指令 
地 址 







1024 个 ” 妈 
“3 位 








4096 
个 单元 





两 层 局 部 预测 句 


图 5-18 Alpha 21264 处 理 器 混合 预测 器 示意 图 。 它 使 用 一 个 与 图 5-17 所 示 的 
AB 预测 器 很 相似 的 状态 机 〈 最 左边 的 模块 ) 来 选 拌 是 使 用 全 局 项 测 
器 还 是 两 层 局 部 预测 器 ， 从 而 获得 优秀 的 预测 性 能 


全 局 预测 器 使 用 12 位 分 支 历 史记 录 器 在 4096 个 2 位 预测 器 中 进行 选择 。 这 个 预测 器 精确 地 
预测 了 分 支行 为 。 换 名 话说 ， 它 真实 地 反映 了 是 如 何 到 达 一 ee 
局 部 预测 器 使 用 地 址 线 的 低 10 位 在 1024 个 10 位 移 位 寄存 器 预测 器 中 进行 选择 。 这 个 移 位 


寄存 器 预测 器 是 一 RE 


注意 不 要 误 以 为 地 址 线 和 移 位 寄存 器 都 必须 为 10 位， 它们 可 以 有 不 同 的 位 宽 。 

移 位 寄存 器 的 值 将 用 于 在 1024 个 3 位 饱和 计数 器 (分 别 预测 不 同 的 分 支 ) 中 进行 选择 。 预 
测 的 结果 是 这 些 计 数 器 的 最 高 有 效 位 〈 MSB ) 。 

Alpha 21264 中 的 预测 器 使 用 了 多 层 结构 (针对 局 部 预测 ) 以 及 在 两 个 不 同 的 预测 器 中 进行 
动态 选择 。 它 像 是 结合 了 我 们 至 今 所 讨论 过 的 所 有 预测 机 制 。 

然而 ， 我 们 还 要 检测 它 的 性 能 。 在 CPU 中 给 定 一 个 有 限 的 空间 来 支持 分 支 预测 ， 我 们 应 该 
考虑 这 个 空间 适合 使 用 哪 种 预测 机 制 或 者 是 用 来 改进 流水 线 的 某 个 方面 。 

这 个 问题 在 1993 年 给 出 了 回答 ， 在 这 一 年 中 数字 仪器 公司 (DEC) 的 Alpha 21264 处 理 咒 的 
分 支 预测 单元 被 设计 出 来 。 对 它 的 测试 表明 ， 混 合 方法 的 性 能 超越 了 相等 规模 的 全 局 预测 器 和 
相等 规模 的 局 部 预测 器 。 事 实 上 ， 这 种 处 理 器 的 分 支 预测 器 在 实际 代码 中 获得 了 令 人 惊讶 的 
98% 正确 4 个 即使 在 最 先进 的 处 理 器 上 也 很 难 被 超越 的 成 绩 。 


5.7. 10 分 支 目 标 缓冲 

正如 我 们 在 前 几 节 所 看 到 的 ， 分 支 预测 器 可 以 清楚 地 知道 是 否 执行 某 个 特定 的 分 支 。 回 到 
我 们 为 什么 需要 预测 分 支 的 原因 上 ， 这 是 为 了 提高 所 预测 的 执行 代码 是 正确 代码 的 几率 ， 降 低 
清空 流水 线 的 可 能 性 。 
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我 们 需要 预测 执行 代码 的 主要 原因 之 一 是 ， 当 -- 个 分 支 执行 时 ， 甚 目标 地 址 是 按 相 对 偏 移 
存储 的 ,需要 通过 ALU 将 偏 移 量 与 当前 PC 值 相 加 来 得 出 ， 这 个 过 程 需要 使 用 ALU， 而 在 处 理 器 
上 上 并 没有 为 地 址 计算 设计 独立 的 ALU， 地 址 计算 需要 在 分 支 指令 进行 到 “执行 ”阶段 时 共享 流 
水 线 上 的 ALU， 这 我 们 已 经 在 5. 2. 8 节 中 做 过 讨论 。 

然而 ， 即 使 我 们 正确 地 预测 了 某 一 个 分 支 是 否 会 执行 ， 我 们 还 是 需要 进行 这 个 地 址 计算 。 换 
名 话说 ， 我 们 可 以 很 快 地 进行 预测 ， 但 是 我 们 需要 等 待 计算 完成 〈 或 至 少 两 者 同时 进行 
样 就 是 等 待 两 者 之 间 的 最 慢 者 ) 。 

所 以 计算 机 体系 结构 设计 师 会 得 出 这 样 一 个 巧妙 的 想法 : 为 什么 不 将 目标 地 址 存储 在 预测 器 
上 上? 与 其 简单 地 预测 执行 分 支 或 不 执行 分 支 ， 为 什么 不 预测 整个 目标 地 址 ? 毕竟 ， 只 有 唯一 -一 个 地 
直 分 支 指令 会 分 支 到 ， 而 如 果 我 们 能 够 记录 分 支行 为 ， 那 么 我 们 也 能 够 轻松 地 记录 下 分 支 的 地 址 。 

而 这 就 是 分 支 目标 缓冲 (BTB) 所 要 做 的 。 

使 用 BTB 意味 着 如 果 我 们 预测 正确 并 且 当 前 分 支 已 经 至 少 被 执行 过 一 次 ， 则 不 需要 等 待 
ALU 计算 出 分 支 目 标 地 址 。 图 5- 19 给 出 了 BTB 的 流程 图 。 当 进行 分 支 预测 时 ， 我 们 首先 查看 
BTB。 如 果 BTB 命中 〈 当 前 分 支 指令 在 BTB 中 有 一 个 记录 ， 即 之 前 已 经 遇 到 过 该 条 指令 ) ， 则 将 
BTB 中 的 目标 地 址 装载 进 PC， 预 测 从 该 地 址 执行 。 





这 


按 正 常规 则 执行 





确定 是 否 
执行 分 支 












跳 转 至 BTB 
于 的 分 支 地 址 
预测 错误 ， 更 新 BTB， 清 空 流水 线 
按 正常 规则 执行 ， 
AN 计算 目标 地 址 并 执行 分 支 。 


用 结果 更 新 BTB 


按 正 常规 则 执行 


图 5-19 BTB 流程 图 


一 旦 确定 是 否 执行 分 支 (对 于 非 条 件 分 支 为 立即 获得 ， 而 对 于 条 件 分 支 则 要 等 到 条 件 设置 
指令 执行 完毕 ) ， 我 们 就 知道 是 否 要 继续 这 个 预测 的 执行 ， 或 是 要 清空 流水 线 ， 然 后 更 新 BTB 并 
取出 正确 的 指令 ， 

而 如 果 BTB 不 命中 ， 则 预测 分 支 不 执行 。 当 分 支 结果 确定 时 ， 如 果 应 当 执 行 ， 则 将 目标 地 
址 更 新 至 BTB， 如 果 已 经 预测 执行 还 应 清空 流水 线 ， 然 后 分 文 至 正确 的 地 址 继续 执行 。 

实际 上 ， 如 图 5-20 所 示 的 BTB 中 的 内 容 看 起 来 与 内 存 的 cache (4.4 节 ) 很 像 ， 以 分 支 指令 
所 在 的 地 址 作为 标志 ， 一 个 记录 存储 了 分 支 预测 (可 以 使 用 我 们 之 前 讨论 过 的 任何 预测 器 制 ) 
和 目标 地 址 。 像 cache 一 样 ，BTB 也 可 以 为 全 关联 、 组 关联 ， 或 者 更 为 奇特 的 关联 方法 。 

然而 ，BTB 的 讨论 并 没有 到 此 为 止 ， 还 有 一 个 重要 的 改进 : 想 -- 想 在 CPU 分 支 到 目标 地 址 
时 发 生 了 什么 一 一 它 将 目标 地 址 处 的 指令 装载 进 流水 线 。 在 流水 线 中 对 它 进行 译 码 和 执行 时 ， 
之 前 的 分 支 指令 已 经 执行 完毕 ， 所 以 此 时 知道 这 条 指令 应 该 被 继续 执行 还 是 被 清 出 流水 线 。 

但 是 我 们 可 以 提早 完成 这 个 过 程 ， 通 过 将 这 条 指令 而 不 是 这 条 指令 的 地 址 存在 BTB 中 。 这 
样 在 BTB 命中 时 ， 就 可 以 直接 把 所 保存 的 指令 送 入 流水 线 而 不 需要 再 经 过 取 指 阶段 。 
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图 5-20 BTB 结构 图 。 它 的 组 织 与 cache 相似 ， 市 实际 上 它 所 完成 的 功 
能 也 与 cache 相似 ， 是 为 了 减少 访问 它 所 存储 的 指令 的 时 间 


5.7. 11 基本 代码 段 


对 于 5.7.10 节 介绍 的 BTB 技术 还 有 一 些 改进 值得 注意 ， 这 些 改进 是 针对 一 段 代 码 而 不 是 独 
立 的 指令 而 进行 的 。 实 际 上 ， 对 单独 指令 的 移动 也 会 涉及 一 整 段 代 码 的 修改 。 在 计算 机 体系 结构 
领域 和 软件 体系 结 爸 领域 中 常 使 用 以 下 3 种 类 型 的 代码 段 : 

。 基本 代码 段 (basic block) : 是 指 按 顺 序 执行 没有 分 支 进 入 或 分 支出 去 的 指令 序列 〈 即 只 


有 -一 个 人 口 和 一 个 出 口 ) 。 . 

。 超级 代码 段 (super block ) : 是 指 基本 代码 段 的 一 个 
执行 轨迹 ， 但 其 只 有 - -个 人 口 而 可 能 有 多 个 出 口 。 

。 特级 代码 段 (hyper block ) : 是 指 与 超级 代码 段 相似 
的 多 个 基本 代码 段 集 合 ， 其 只 包含 一 个 人 口 而 可 能 






有 多 个 出 口 。 与 超级 代码 段 不 一 样 的 是 特级 代码 段 
有 多 条 执行 轨迹 ( 即 多 个 控制 路 径 ) 
在 本 节 中 ， 我 们 将 讨论 范围 限制 为 最 为 简单 的 基本 代码 
段 ， 为 基于 代码 段 的 BTB 方法 所 采用 。 想 象 一 下 BTB ， 或 者 
内 存 的 cache， 可 以 存储 一 - 段 指 令 并 将 它们 送 入 流水 线 。 对 
于 支持 指令 重 排 (re-order) 或 乱 序 执行 的 流水 线 ， 这 种 方法 
可 以 获得 最 大 的 灵活 性 及 最 佳 性 能 提升 。 























基本 代码 段 可 以 由 分 支 指令 及 其 目标 地 址 之 间 的 一 串 指 令 前- 
组 成 ， 而 程序 的 执行 轨迹 可 以 由 一 系列 基本 代码 段 的 连接 图 来 i B7 
标识 。 图 5-21 展示 了 一 个 由 多 个 基本 代码 段 组 成 的 路 生 图 。 : | 
首先 我 们 预测 了 分 支 是 否 会 执行 ， 其 次 我 们 也 预测 了 分 VY 


支 的 目标 地 址 ， 最 后 我 们 预测 了 目标 地 址 指令 。 现 在 我 们 可 图 5-21 执行 一 个 程序 时 将 -组 时 
以 预测 基本 代码 段 。 本 模块 下 联 起 来 的 路 径 罗 
通过 标定 出 基本 代码 段 的 指令 ， 我 们 可 以 将 其 缓存 起 来 并 快速 发 送 。 例 如 ， 参 考 图 5-21， 
一 个 BTB 块 可 以 直接 将 包含 了 B1、B2、B5 和 B6 的 指令 发 送 至 流水 线 而 不 需要 分 支 一 一 假设 我 
们 已 经 正确 地 预测 了 这 些 块 的 路 径 。 
当然 ， 我 们 仍 需 要 检查 我 们 所 预测 的 分 支行 为 是 否 正确 ,， 且 在 预测 错 的 时 候 仍 需 要 清空 流 
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水 线 。 在 实际 代码 中 ， 可 能 包含 了 多 个 基本 代码 段 (BB) ， 每 个 代码 段 可 能 包含 数 十 条 指令 ( 平 

均 每 个 BB 的 大 小 约 为 7 条 指令 ， 但 是 对 于 不 同 的 计算 、 不 同 的 处 理 器 及 编译 器 是 不 同 的 ) 。 
跟踪 cache 随 着 时 间 的 推移 不 断 更 新 ， 并 且 每 当 CPU 命中 根 BB ( B1) ， 分 支 预 测算 法 就 要 

对 未 来 路 径 进行 预测 。 如 果 此 预测 与 跟踪 cache 的 第 二 个 人 口 (B2) 相符 ， 即 为 命中 ，CPU 开始 
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执行 来 自 跟踪 预测 的 基本 代码 段 内 容 (这 些 指令 也 被 存储 在 cache 中 ) 。 

这 种 系统 在 奔腾 4 处 理 器 上 得 到 了 应 用 ， 但 不 同 的 是 ， 在 奔腾 4 上 的 系统 不 缓存 BB 内 的 指 
令 ， 而 是 存储 器 译 码 后 的 指令 内 容 ， 即 我 们 不 仅 可 以 绕 过 流水 线 中 的 “ 取 指 ”阶段 ， 而 且 可 以 
绕 过 “ 译 码 ”阶段 。 


5.7. 12 分 支 预测 总 结 


在 前 面 几 节 里 ,我 们 花 了 很 大 精力 对 如 何 保持 流水 线 不 间断 地 执行 指令 进行 了 讨论 。 所 有 
化 费 在 分 支 预 测 、 加 速 等 方面 的 努力 都 是 为 了 尽 可 能 快 地 发 送 指 令 。 流 水 线 以 及 指令 级 并 行 都 
是 保证 指令 能 够 快速 旦 高 效 执行 的 方法 。 

我 们 需要 注意 的 是 ， 没 有 一 种 独立 的 技术 是 最 佳 的 ， 只 有 合理 地 选择 多 种 技术 并 让 它们 相 
互 融 洽 地 配合 才能 获得 最 理想 的 性 能 。 

还 有 一 点 需要 注意 ， 硬 件 的 加 速 少不了 优秀 的 编译 器 支持 ”， 将 一 部 分 努力 花 在 搭建 一 个 好 
的 编译 器 上 比 把 所 有 努力 都 花 在 硬件 提速 上 可 以 获 利 更 多 。 


5.8 并 行 机 器 

2.1.1 节 介 绍 了 Flynn 的 处 理 器 分 类 方法 ， 其 根据 处 理 指令 和 数据 的 方法 将 处 理 器 分 为 了 4 
组 ， 分 别称 为 : 

。 SISD 一 一 单 指令 流 单数 据 流 

。 SIMD 一 一 单 指令 流 多 数据 流 

。 MISD 一 一 多 指令 流 单数 据 流 

。 MIMD 一 一 多 指令 流 多 数据 流 

总 的 来 说 ， 我 们 讨论 至 此 一 直 都 只 考虑 SISD 机 器 一 一 在 嵌 人 式 系统 及 台式 机 中 常见 的 微 处 
理 器 。 我 们 也 讨论 了 一 些 在 MMX 和 SSE 单元 中 ( 见 4.5 节 ) 以 及 在 一 些 ARM 专用 协 处 理 器 
( 见 4.8 节 ) 上 遇 到 的 SIMD 要 素 。 我 们 将 跳 过 MISD， 其 大 部 分 都 应 用 在 容错 系统 〈fault-tolerant 
system) 上 ， 例 如 对 数据 进行 多 次 计算 然后 比较 每 次 计算 的 结果 一 一 这 些 将 会 在 7. 10 节 中 进行 
更 深入 的 讨论 。 所 以 接 下 来 我 们 将 讨论 SIMD 和 MIMD。 

在 写 此 书 的 时 候 ， 处 理 器 产业 已 经 由 SISD 扩展 至 SIMD 和 MIMD。MIMD 因此 变 得 越 来 越 流 
行 。 我们 在 4.5 节 中 已 经 讨论 了 一 些 常 用 的 协 处 理 器 ， 它 在 主 CPU 上 扩展 一 些 功能 单元 用 于 执 
行 各 种 特殊 功能 。 这 里 ， 我 们 将 更 进一步 讨论 在 MIMD 结构 下 多 个 相同 的 处 理 器 一 起 并 行 工 作 。 

准确 地 说 ， 在 计算 机 里 有 不 同 层 次 的 并 行 ， 而 “并 行 机 器 ”是 一 种 比较 广泛 的 定义 。 让 我 
们 先 来 简单 了 解 不 同 层次 的 并 行 : 

。 位 级 并 行 : 与 计算 机 的 字 长 相关 。 一 个 8 位 计算 机 并 行 处 理 8 位 数据 ， 而 32 位 机 器 可 以 

同时 人 处理 4 倍 于 它 的 数据 。 

。 指令 级 并 行 : 是 一 系列 技术 的 集合 ， 它 们 允许 同时 执行 多 条 指令 。 正 如 我 们 已 经 看 到 的 许多 

例子 那样 ， 不 同 的 指令 可 以 同时 重合 执行 ， 只 要 它们 之 间 没 有 数据 相关 。 流 水 线 就 是 这 样 一 
个 例子 ， 而 超标 量 机 器 、 协 处 理 器 以 及 Tomasulo 算法 ( 见 5.9 节 ) 也 是 指令 级 并 行 的 例子 。 
。 向 量 并 行 : 与 SIMD 机 器 相关 ， 它 们 处 理 的 是 整个 向 量 中 的 数据 而 不 是 单一 字 长 的 数据 。 




















旺 ”作者 个 人 推荐 使 用 GCC (GNU Complier Collection ) 。 
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SSE 和 MMX 都 是 这 种 类 型 并 行 的 例子 。 


。 任务 并 行 : 是 指 整个 任务 或 程序 子 程序 和 函数 可 以 同时 被 不 同 的 硬件 执行 。 我 们 将 在 本 


节 对 其 进行 讨论 。 


和 


在 9.3 节 对 这 种 系统 进行 讨论 。 





图 5-22 展示 了 这 些 不 同 层次 的 并 行 ， 概 括 地 表示 了 从 通过 指令 按 位 操作 向 更 高 层次 并 行 的 发 展 。 
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图 5-22 不 同居 次 并 行 示意 图 。 展 示 了 从 最 原始 的 按 位 操作 不 断 向 高 层次 并 行 
的 发 展 ， 这 种 发 展 建 立 在 不 断 重 复 最 基本 的 并 行 操作 之 上 
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机 器 并 行 : 是 指 大 型 公司 如 Google 、Amazon 所 采用 的 服务 器 堆 ( server farm) 。 它 们 包含 
了 上 上 百 甚 至 上 千 台 单独 的 计算 机 ， 每 台 计算 机 都 为 某 一 个 特定 任务 而 并 行 运行 。 我 们 将 
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在 讨论 并 行 处 理 的 同时 ， 指 出 什么 需要 “联合 ” (coupling) 并 行 执行 是 很 必要 的 。 广 义 的 
联合 〈loosely coupled) 并 行 处 理 指 不 同 的 并 行 执行 线程 没有 相关 性 ， 可 以 独立 地 执行 。 这 种 任 
务 可 以 很 容易 地 被 独立 的 并 行 处 理 器 核 分 别 执行 。 例 如 ， 有 两 个 来 自 不 相关 用 户 的 Google 搜索 
请 求 ， 在 Google 服务 器 堆 里 分 别 由 两 台 机 器 响应 。 另 一 方面 ， 紧 密 的 联合 (tightly coupled) 任 
务 之 间 的 相关 性 则 很 强 。 它 们 可 能 需要 共享 数据 ， 经 常 进行 通信 ， 并 且 出 现 一 -个 任务 与 男 一 个 任 
务 相关 的 状况 。 如 果 将 两 个 任务 都 放 在 同一 台 机 器 上 执行 ， 这 样 两 台 机 器 之 间 的 通信 就 不 会 成 
为 性 能 的 瓶颈 。 自 然 ， 机 器 的 体系 结构 与 这 些 任务 是 否 匹 配 就 变 得 不 太 重 要 了 。 

对 于 计算 机 体系 结构 ， 并 行 中 常用 的 大 都 是 那些 我 们 之 前 所 讨论 的 顶尖 结构 。 我 们 已 经 涉 
及 了 大 部 分 计算 机 种 类 ， 并 将 在 9. 3 节 讨 论 大 规模 并 行 机 器 ， 但 现在 ,我 们 将 讨论 的 是 任务 并 行 
这 -层次 。 这 种 并 行 比 超标 量 和 向 量 计 算 本 的 层次 要 高 ， 比 机 器 并 行 要 低 。 任 务 并 行 在 台式 机 领 
域 里 变 得 越 来 越 重要 ， 并 且 逐 渐 影 响 着 嵌 人 式 领 域 。 

在 并 行 中 有 两 个 重要 的 演变 ， 我们 将 依次 进行 讨论 。 第 一 个 是 由 带 有 附加 功能 单元 的 SISD 
问 MIMD 的 演变 。 第 二 个 是 为 了 提高 性 能 而 采用 并 行 。 我 们 将 在 接 下 来 的 几 个 小 节 里 对 这 两 个 演 
变 进行 讨论 。 

5.8.1 SISD 向 MIMD 的 演变 


写 -个 SISD 的 程序 是 比较 简单 的 一 一 从 程序 员 的 角度 ， 在 任何 时 刻 通常 只 需 考 虑 一 件 事情 ， 
并 且 程 序 在 分 支 之 后 都 是 按 硕 序 执行 。 在 早期 的 程序 存储 计算 机 上 ,设计 人 员 所 愿意 看 到 的 是 : 
装载 今天 的 程序 然后 执行 它 ， 明 天 再 装载 不 同 的 程序 然后 执行 。 改 变 任 务 只 需 更 换 不 同 的 打 孔 
卡 即 可 。 

然而 ， 就 在 这 10 年 间 各 类 计算 机 一 直 在 寻求 能 被 人 们 广泛 接受 时 ， 软 件 已 经 开始 由 以 计算 
为 主导 《如 会 计 计 算 、 模 拟 计算 、 方 程 求解 等 ) 经 由 控制 领域 (如 传 感 右 监控 、 自 动 化 控制 等 ) 
转向 解决 复杂 的 多 任务 ,通常 包括 智能 感知 (multi- sensory ) 、 沉 淄 式 人 机 界面 (immersive 
human-computer interfacing) 等 。 

以 往 的 计算 机 只 需要 在 一 段 时 间 内 完成 一 个 任务 ， 而 现在 的 计算 机 (包括 台式 机 和 和 嵌入 式 
系统 ) 几乎 都 需要 同时 处 理 多 个 并 发 任务 。 这 些 不 同 的 任务 都 包含 了 不 同 的 时 间 和 操作 需求 。 
6.4 节 将 对 实时 任务 进行 讨论 ， 这 里 只 需 认为 软件 通常 需要 在 不 同 的 时 间 执 行 不 同 的 代码 段 。 程 
序 的 每 一 段 代 码 都 可 以 被 当做 是 一 个 独立 的 任务 ， 因 此 程序 可 以 划分 为 不 同 的 任务 ， 完 成 不 同 
的 功能 ， 它 们 可 以 在 同一 计算 机 上 的 不 同时 间 内 完成 。 

通常 ， 这 些 任务 都 带 有 独立 性 ， 因 此 通常 不 同 任务 间 会 产生 需求 冲突 。 一 般 而 言 ， 当 面 对 两 
个 (或 多 个 ) 冲突 需求 时 ， 系 统 体系 结构 设计 师 通 常会 将 系统 划分 为 多 个 部 分 ,让 硬件 和 软件 
的 不 同 部 分 分 别 满足 多 个 需求 。 划 分 通常 是 针对 软件 的 : 让 软件 的 两 个 部 分 分 别处 理 两 个 不 同 
的 方面 ， 但 共享 CPU 资源 。 然 而 ， 硬 件 也 可 以 被 划分 ， 如 让 两 个 处 理 器 分 别处 理 一 个 任务 。 

可 以 用 一 个 简单 的 例子 来 说 明 需 求 冲 突 ， 即 台式 机 运行 一 个 使 用 鼠标 控制 的 视窗 桌面 显示 ， 
同时 运行 一 个 MP3 后 台 播放 系统 。 在 这 个 例子 中 ，MP3 后 台 播 放 系统 需要 进行 数学 计算 来 处 理 
音频 流 ， 而 音频 的 各 个 采样 需要 及 时 地 输出 ， 任 何 一 个 采样 被 延 时 都 会 产生 “ 喀 喀 ” 声 黄 至 是 
噪声 。 系 统 的 设计 人 员 已 经 意识 到 这 一 点 ， 提 高 了 MP3 后 台 播 放 的 优先 级 提高 使 其 能 够 在 任何 
时 候 都 可 以 运行 而 不 需要 等 待 别 的 任务 运行 完毕 。 遗 性 的 是 ， 用 户 由 此 通过 鼠标 去 控制 播放 器 
时 会 发 现 鼠 标 指针 移动 不 流畅 。 解 决 的 办 法 就 是 将 鼠标 指针 的 优先 级 设 为 比 MP3 播放 器 高 ， 或 
更 好 的 方法 是 ， 采 用 动态 优先 级 系统 。 

然而 还 可 以 有 第 三 种 选择 : 使 用 MIMD 系统 ， 它 允许 一 台 机 器 包含 两 个 (或 多 个 ) 指令 流 
和 数据 流 ， 并 同时 处 理 它们 。 由 此 ，MIMD 就 不 需要 分 时 共享 单一 的 处 理 器 资源 ,但 由 于 两 个 
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(或 多 个 ) 处 理 器 在 同一 个 芯片 上 ， 因 此 需要 共享 内 存 和 外 设 ， 可 以 高 效 地 处 理 多 个 任务 。 

图 5-23 展示 了 几 种 可 供 选 择 的 硬件 ， 给 出 了 一 个 基本 的 SISD 处 理 器 、 一 个 共享 内 存 的 
MIMD 处 理 器 和 一 个 SIMD 处 理 器 。 这 个 SISD 处 理 器 拥有 一 个 ALU、 一 个 乘法 器 、 一 个 IO 模 
块 、 一 个 内 存单 元 、 一 个 控制 单元 和 一 个 取 指 / 译 码 单元 (IU) 。4 个 寄存 器 与 内 部 三 总 线 相连 。 
给 定 两 个 软件 任务 在 这 个 SISD 处 理 器 上 运行 ， 需 要 各 自 的 时 间 片 。 在 图 5-23b 中 ， 加 入 几 个 额 
外 的 功能 单元 进而 转变 成 了 SIMD 处 理 器 ， 它 可 以 对 多 个 数据 同时 进行 计算 一 一 由 此 允许 将 两 个 
任务 混合 在 软件 里 同时 运行 。 由 于 这 种 处 理 器 并 不 是 SISD 处 理 器 的 完全 升级 ， 因 此 内 部 总 线 布 
局 成 了 它 的 瓶颈 。 在 图 5-23e 中 展示 的 是 一 个 共享 内 存 的 MIMD 处 理 器 ， 每 个 独立 的 CPU 都 有 独 
立 的 总 线 系统 ， 是 真正 意义 上 的 并 行 。 它 在 一 个 芯片 上 包含 了 两 个 完整 的 处 理 器 核 ， 但 是 共享 外 
部 存储 也 成 了 它 的 瓶颈 。 

































































































































































图 5-23 几 种 处 理 絮 的 示意 图 
a) 一 个 基本 的 SISD 处 理 咒 ， 包 含 四 个 功能 单元 《ALU、 乘 法 器 、TO 模块 和 内 存 模块 )、 
一 个 控制 单元 和 一 个 取 指 / 译 码 单元 (IU)， 它们 都 与 一 组 寄存 器 相连 ; b) 一 个 SIMD 处 
理 器 ， 它 增加 了 如 图 所 示 的 额外 功能 单元 ; c) 一 个 完全 共享 存储 的 MIMD 处 理 器 ， 它 在 
一 个 芯片 上 包含 了 两 个 完整 的 处 理 器 核 


与 将 软件 划分 为 独立 的 线程 时 一 样 ， 处 理 器 设计 人 员 也 遇 到 了 时 钟 频 率 、 数 据 位 宽 等 限制 ， 
下 一 个 性 能 的 提高 方向 转向 了 提高 并 行 度 一 一 这 正 是 由 SISD 到 SIMD 最 后 到 MIMD 的 历程 。 

在 税 人 式 计 算 领域 ， ARM946 双核 平台 (Dual Core Platform，DCP) 是 一 个 重要 的 双核 解决 
方案 。 它 将 两 个 ARM9 核 集成 在 一 个 芯片 上 ， 共 享 存储 接口 和 片上 通信 接口 。 图 5-24 给 出 了 这 
个 处 理 器 的 结构 图 。 
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这 个 处 理 器 称 为 广义 联合 (loosely-coupled) 、 前 集成 ( pre-integrated) 双核 结构 ， 它 在 硬件 
上 支持 同步 调试 和 程序 跟踪 。 大 部 分 的 软件 和 固件 都 支持 这 个 系统 ， 并 且 支 持 ARM9 的 操作 系统 
也 能 在 这 个 处 理 器 上 运行 。 这 些 软件 的 支持 包含 了 可 以 让 不 同 的 软件 线程 (任务 ) 运行 在 不 同 
的 处 理 器 核 上 ， 通 过 硬件 通信 接口 〈 图 中 标 为 “通信 电路 " ) 进行 仲裁 。 

虽然 这 里 通过 ARM946 介绍 并 行 计算 ， 但 它 的 本 质 仍 是 一 个 双核 处 理 器 而 不 是 一 个 并 行 机 器 。 
两 个 处 理 器 核 相 比 多 个 独立 单元 更 容易 进行 同步 ， 并 且 在 此 例 中 核 独立 外 设 都 被 设置 了 两 份 。 在 写 
此 书 时 ， 四 核 的 Cortex- A9 处 理 器 也 即将 发 布 ， 这 也 将 成 为 谍 人 式 并 行 处 理 里 程 上 划时代 的 一 步 。 

由 于 这 些 处 理 器 都 是 针对 租 入 式 应 用 而 开发 的 ， 一 种 可 能 的 系统 划分 为 ， 用 户 界面 代码 运 
行 在 一 个 处 理 器 核 上 ， 每 当 有 用 户 调用 时 就 会 被 触发 运行 ， 而 媒体 处 理 (有 实时 性 ) 运行 在 另 
外 一 个 处 理 器 核 上 。 或 者 对 于 一 个 基于 无 线 局 域 网 的 音频 设备 ， 一 个 核 运行 MP3 解码 ， 另 一 个 
核 运行 Ethernet 处 理 。 

不 管 面 对 什么 样 的 应 用 ， 这 种 双核 处 理 器 都 将 逐渐 成 为 主流 。 它 们 已 经 开始 占据 处 理 器 市 
场 。 而 在 未 来 ， 更 多 的 核 将 被 集成 在 一 起 来 满足 不 断 增长 的 性 能 需求 。 


5. 8. 2 为 提高 性 能 而 采用 并 行 


我 们 已 经 提 到 了 计算 机 设计 人 员 为 提高 性 能 而 面临 的 压力 。 虽 然 摩尔 定律 已 经 很 好 地 得 到 
了 验证 ,但 是 消费 者 还 是 希望 在 他 们 的 性 能 已 经 很 高 的 计算 机 上 获得 更 多 的 性 能 提升 。 

或 许 软件 设计 人 员 也 已 经 学 会 了 期 待 计算 机 的 能 力 〈 还 有 内 存 大 小 ) 应 该 逐年 增长 。 而 计 
算 机 体系 结构 设计 师 也 总 是 在 抱怨 程序 员 一 一 这 种 抱怨 根源 于 计算 机 发 展 史 上 软件 设计 人 员 与 
计算 机 设计 人 员 的 划分 。 大 部 分 的 计算 机 设计 人 员 (也 包括 作者 ) 都 认为 他 们 可 以 将 软件 设计 
得 比 程序 员 实 际 设计 的 更 好 。 

不 管 这 样 的 说 法 是 否 能 够 站 得 住 脚 ， 不 断 增长 的 软件 规模 (通常 被 计算 机 体系 结构 设计 师 
认为 是 腔 肿 ) 和 不 断 下 降 的 运行 速度 ， 消 耗 掉 了 大 部 分 通过 体系 结构 发 展 、 时 钟 频率 提高 、 智 
能 的 流水 线 技 术 等 所 获得 的 性 能 提高 。2009 年 典型 的 台式 计算 机 的 速度 就 比 作者 10 年 前 所 用 
的 计算 机 至 少 快 50 倍 一 一 但 是 网 页 的 装载 速度 仍旧 很 慢 ， 保 存 和 读 取 文件 仍旧 很 慢 ， 加 载 操 作 
系统 仍旧 耗费 10 秒 左 右 的 时 间 。 但 除了 CPU 本 身 的 因素 外 ， 其 他 的 外 部 因素 也 在 影响 着 速度 ， 
如 Internet 等 连接 设备 以 及 硬盘 等 的 有 限 速度 。 就 软件 范围 来 讲 ， 没 有 什么 是 当前 计算 机 可 以 完 
成 而 老 的 计算 机 是 无 法 完成 的 ,但 是 一 个 操作 系统 却 已 经 由 几 十 个 MB 膨胀 到 超过 1CB。 

这 并 不 是 要 把 责任 分 捧 到 软件 设计 人 员 上 ， 而 是 因为 软件 规模 和 复杂 度 都 已 经 在 逐年 增长 : 
在 一 台 10 年 前 的 计算 机 上 运行 当前 的 大 部 分 软件 是 难以 想象 的 ， 并 且 大 部 分 是 不 可 能 的 。 

当前 软件 随 着 计算 机 速度 和 处理 能 力 的 提高 在 不 断 增 长 ， 从 这 样 一 个 角度 ,我 们 可 以 认为 ， 
软件 本 身 也 是 硬件 发 展 的 一 个 动力 。 

不 管 是 什么 样 的 因素 和 动力 ， 计 算 机 制造 商都 感觉 到 了 巨大 的 计算 机 性 能 持续 提高 的 压力 。 这 
也 带 来 了 许多 收获 ， 如 时 钟 频率 的 提高 、IPC 的 增长 等 ( 见 5.5.1 节 )。 和 遗 同 的 是 ， 计 算 机 设计 人 员 
已 经 很 难 再 从 这 些 方 面 来 提高 计算 机 的 性 能 了 ， 他 们 付出 了 越 来 越 多 的 努力 ， 获 得 的 性 能 提升 却 越 
来 越 少 。 计 算 机 设计 人 员 因 此 转 而 借助 并 行 来 提高 性 能 。 设 计 一 个 相对 简单 的 处 理 器 并 在 一 个 集成 
电路 (IC) 上 放置 16 个 会 比 在 一 个 快 16 倍 的 IC 上 设计 一 个 处 理 器 并 利用 所 有 的 资源 要 容易 得 多 。 
同时 并 行使 用 两 个 已 有 的 处 理 器 也 比 开 发 一 个 速度 是 现 有 处 理 器 两 倍 的 处 理 器 容易 得 多 。 

理论 上 ， 更 多 的 处 理 器 或 执行 单元 并 行 运行 能 提高 计算 的 速度 , 但 这 也 只 有 在 计算 能 够 并 
行 执行 时 才 会 成 立 。 给 定 m 个 并 行 任务 ， 每 个 任务 需要 7, 秒 执行 ， 一 个 单 核 处 理 器 执行 这 些 任 














日 、 丰 这里， 速度 是 以 一 段 简单 代码 的 执行 速率 来 衡量 的 ， 即 在 3. 5.2 节 中 介绍 的 Linux bogomips 速率 。 
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需要 mx7, 秒 。 

当 所 拥有 的 处 理 单 元 n 比 待 执行 的 任务 多 ， 即 n>m 时 ， 这 些 任务 就 可 以 在 T 秒 内 执行 完毕 ， 
则 所 获得 的 加 速 比 为 《m x 7,)A(T,) =m， 也 称 为 理想 加 速 比 。 当 然 ， 这 个 等 式 并 没有 考虑 消 息 伟 
递 的 消耗 以 及 操作 系统 执行 并 行 处 理 所 需 要 的 支持 。 同 时 也 假设 了 这 些 任务 之 间 没 有 数据 相关 。 

总 体 而 言 ， 对 于 一 个 串 行 任务 所 占 比例 为 的 程序 ,完全 串 行 执 行 需要 7, 秒 。 串 行 部 分 的 
执行 时 间 为 fx 7, 秒 ， 而 并 行 部 分 使 用 串 行 执行 的 时 间 为 (1 -了 ) x 7, 秒 。 假设 没 有 其 他 开销 ， 
则 使 用 m 个 执行 单元 并 行 执 行 消 耗 的 总 时 间 降 为 (1 -/) x 7T,/m +fxT,， 而 加 速 比 等 于 原来 的 执 
行 时 间 除 以 并 行 的 执行 时 间 为 : 

加 速 比 =m/il+(m-1) x 月 

当 f 为 0 (意味 着 没有 串 行 部 分 ) 时 ， 结 果 就 与 之 前 的 理想 加 速 比 相同 。 这 个 等 式 即 为 Amdahl 

定律 ， 表 明了 加 速 比 与 处 理 器 个 数 之 间 的 关系 ， 并 指出 通过 并 行 计算 可 以 获得 的 潜在 性 能 提高 。 


5. 8.3 其 他 并 行 处 理 


对 称 多 处 理 (Symmetrical Multi- Processing，SMP) 是 指 有 两 个 或 多 个 相同 的 处 理 单元 连接 到 
一 个 共享 存储 器 上 。 这 种 技术 有 很 多 种 变化 ， 包 括 共 享 cache 、 分 布 cache (使 用 MESI cache 一 
致 性 协议 ， 参 见 4.4.7 节 ) 等 。 另 一 种 选择 是 非 对 称 多 处 理 ( Asymmetrical Multi- Processing) ， 这 
个 称谓 并 不 常用 ,但 协 处 理 器 就 属于 这 一 类 。 在 写本 书 时 SMP 比较 常见 的 例子 就 是 有 四 个 核 的 
Intel Core 体系 结构 。 图 5-25 给 出 了 Core 2 duo 的 双核 处 理 器 结构 ， 它 拥有 两 个 同 构 的 处 理 单元 ， 
中 间 为 共享 存储 器 (1L2 cache) 。 
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图 5-25 Intel 双核 体系 结 爸 内 部 模块 图 。 该 体系 结 忆 为 一 个 对 称 的 双核 结 爸 ， 
具有 两 套 对 等 的 处 理 单元 (包含 完 整 的 超标 量 流水 线 、 指 令 处 理 硬件 
等 )， 上 共享 一 个 与 外 部 总 线 相连 的 2 级 cache 
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多 核 处 理 器 multi-core machine) 是 指 在 一 个 集成 电路 (IC) 上 包含 了 两 个 或 更 多 的 处 理 音 
元 (通常 是 完整 的 处 理 器 ) 。 一 些 双核 或 四 核 IC 也 被 称 为 多 核 ， 但 实际 上 它们 是 在 一 个 IC 上 包 
含 了 两 块 分 开 的 硅 片 〈 因 而 是 一 个 多 片 模块 〈multi- chip module，MCM) ) 。 随 着 IC 上 的 处 理 器 
核 越 来 越 多 ， 一 些 处 理 器 被 称 为 众 核 处 理 器 (many- core machine) 。 对 于 设计 人 员 来 说 ， 使 用 
FPGA 的 软 核 来 搭建 多 核 和 众 核 处 理 器 是 比较 简单 的 (参见 第 8 章 与 此 有 关 的 一 个 例子 )。 

同 构 体系 结构 是 指 那些 处 理 器 里 所 有 的 核 都 是 完全 相同 的 。 这 种 处 理 器 在 许多 方面 都 比较 
容易 设计 和 编程 。 然 而 ， 有 些 时 候 异 构 体 系 结构 会 更 有 优势 一 一 异 构 处 理 器 包含 了 两 个 或 多 个 
不 同类 型 的 核 ， 允 许 将 专门 用 于 不 同 处 理 的 核 包 含 在 一 起 。 当 前 许多 智能 手机 就 包含 了 一 个 TI 
的 异 爸 OMAP 处 理 器 ， 它 由 一 个 ARM 核 和 一 个 更 快 的 DSP 组 成 。 

然而 ， 最 著名 的 异 构 多 核 处 理 器 是 来 自 IBM、Sony 和 Toshiba 的 Cel 处 理 器 。 这 个 处 理 器 装 
备 在 了 多 个 超级 计算 机 和 (据说 是 ) 数 百 万 台 Sony 的 Playstation II 上 ， 这 是 一 个 将 多 个 较为 平 
凡 的 处 理 器 能 力 集合 在 一 个 卓越 的 多 核 处 理 器 上 的 典范 。 

Cell (更 准确 的 称谓 是 Cell Broadband Engine Architecture ，Cell 宽带 引擎 体系 结构 ) 的 结构 如 
图 5-26 和 图 5-27 所 示 。 它 包含 了 8 个 相同 的 、 相 对 简单 的 SIMD 体系 结构 处 理 器 ， 称 为 SPE 
( Synergistic Processing Element， 协 同 处 理 单元 ) ， 它 们 由 一 个 IBM Power 体系 结构 的 PPE ( power 
processing element，power 处 理 单 元 ) 进行 调度 管理 。PPE 与 现成 的 IBM PowerPC RISC 处 理 器 十 
分 相似 。 这 8 个 SPE 作为 基本 数据 处 理 单元 由 PPE 控制 ， 而 PPE 运行 着 一 个 操作 系统 。 
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图 5-26 ”Cell 宽带 引擎 体系 结构 模块 图 。 它 有 8 个 图 5-27 PPE 和 SPE 内 部 结构 ， 显 示 了 本 地 存储 
SPE、1 个 单元 互联 总 线 (EUB) 以 及 必 /cache 在 设计 中 的 重要 性 
需 的 存储 器 和 LO 接口 ,再 加 上 IBM 
Power 体 系 结 购 的 power 处 理 单元 (PPE) 
虽然 可 以 作为 计算 机 体系 结构 一 个 重要 的 代表 ， 但 由 于 面积 、 功 耗 、 热 耗 散 等 原因 ，Cel 处 
理 器 本 身 并 不 太 适 合 大 多 数 嵌 人 式 应 用 ， 不 过 它 终 将 是 要 影响 嵌 人 式 领 域 的 。 除 去 物理 和 电气 
方面 的 因素 ， 针 对 异 构 Cell 处 理 器 的 软件 开发 工具 也 在 阻碍 着 它 的 发 展 。 据 报道 ， 许 多 运行 在 
SPE 上 的 代码 需要 手工 编制 ，SPE 和 PPE 处 理 的 划分 和 各 个 SPE 之 间 处 理 的 划分 都 需要 人 工 操 
作 。 只 有 等 到 这 些 工 作 可 以 自动 完成 或 有 相应 的 开发 工具 支持 ，Cell 处 理 器 才 可 能 会 成 为 受 欢迎 
的 产品 。 
集群 计算 机 ， 特 别 是 Linux Beowulf， 都 包含 了 完整 的 计算 机 ， 每 台 计 算 机 是 独立 的 而 不 是 共 
享 内 存 的 (通常 硬盘 也 是 独立 的 ) 。 集 群 将 会 在 9. 3 节 与 类 似 的 网 格 计算 和 云 计算 一 起 讨论 。 在 
写本 书 的 时 候 ， 世 界 上 多 个 最 快 的 超级 计算 机 2 (都 是 集群 ) 都 采用 了 IBM 的 Cell 处 理 器 。 





日 ”世界 上 最 快 计算 机 的 最 新 列表 公布 在 www. top500. org 上 ， 每 6 个 月 更 新 一 次 。 
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5.9 Tomasulo 算法 


在 结束 本 章 以 前 ， 让 我 们 把 目光 转向 40 多 年 前 创新 性 的 IBM System/360。 本 书 通 篇 都 在 强 
调 计算 机 技术 的 不 断 发 展 ， 历 史上 也 有 很 多 革命 性 的 思想 不 断 出 现 ， 而 Tomasulo 算法 就 是 其 中 
之 一 ， 它 被 应 用 到 了 奶 人 式 系统 里 (我们 将 在 5. 9. 3 节 进 行 讨论 ) 。 

Robert Tomasulo 曾 面临 过 一 个 性 能 瓶颈 ， 他 为 IBM System/360 所 设计 的 浮 点 协 处 理 单元 在 运 
行程 序 时 会 因为 指令 相关 而 发 生 停滞 。 因 此 他 设计 了 一 种 智能 的 方法 ,通过 有 限 的 乱 序 执行 来 
打通 流水 线 停滞 。 这 种 方法 就 是 著名 的 Tomasulo 算法 。 


5.9.1 Tomasulo 算法 的 原理 


在 我 们 正式 讨论 Tomasulo 算法 如 何 工作 之 前 ， 让 我 们 先 来 看 看 为 什么 需要 Tomasulo 这 种 类 
型 的 算法 。 这 个 问题 要 回溯 到 在 5.2.4 节 曾 讨论 过 的 数据 相关 性 ， 它 表明 任何 指令 使 用 之 前 指令 
的 输出 作为 其 输入 都 需要 等 待 之 前 的 指令 完全 执行 完毕 才能 开始 执行 。 简 单 地 说 ， 一 条 指令 必 
须 等 待 它 的 所 有 操作 数 都 可 用 后 才能 开始 执行 。 

我 们 已 经 讨论 过 使 用 一 种 编译 时 补偿 方法 (5. 2.7 节 ) 对 指令 进行 重新 排序 来 解决 数据 相关 
问题 ， 重 排 后 的 指令 消除 了 与 其 周围 指令 的 数据 相关 。 另 一 种 解决 数据 相关 的 方法 就 是 乱 序 执 
行 ， 它 不 需要 让 CPU 等 待 存在 数据 相关 的 指令 执行 完毕 ， 而 是 提前 执行 那些 没有 数据 相关 的 指 
令 ， 这 种 CPU 可 以 通过 执行 后 边 的 指令 从 而 保持 CPU 能 够 一 直 正 常 执行 。 由 此 ，CPU 需要 能 够 
取 到 当前 指令 往 后 的 指令 ， 而 这 需要 一 个 强大 的 分 支 预测 执行 部 件 来 支持 ， 否 则 处 理 器 就 不 能 
够 取 到 跨越 条 件 分 支 指令 之 后 的 指令 ， 而 且 重 排 的 指令 也 往往 被 限制 在 分 支 指令 间 的 局 部 代 
码 上 。 

Tomasulo 是 这 样 解决 这 些 问 题 的， 允许 指令 序列 中 的 指令 可 以 带 有 未 知 的 操作 数 发 送出 去 ， 
这 些 未 知 的 操作 数 称 为 虚拟 操作 数 (virtual operand) ， 而 不 需要 等 到 完全 求 出 这 些 操作 数 。 这 些 
指令 将 被 送 往 各 自 目 标 功 能 单元 的 等 候 站 ( Reservation Station ，RS) ， 直 到 它们 的 操作 数 完 全 确 
定 后 再 进入 功能 单元 进行 处 理 。 这 意味 着 指令 序列 就 不 会 被 数据 冒险 所 阻塞 ， 当 然 还 是 存在 一 
些 冒 险 会 阻塞 指令 发 送 。 

可 以 通过 考察 医疗 系统 的 改进 来 说 明 这 个 方法 。 以 前 病人 去 医院 看 病 都 需要 先 在 一 个 大 房 
间 里 候诊 ， 这 个 过 程 有 可 能 持续 好 几 个 小 时 。 轮 到 自己 看 病 后， 医生 通常 又 会 让 病人 先 去 做 一 些 
额外 的 检查 如 血液 检查 等 。 而 做 完 这 些 检查 后 病人 又 要 继续 在 候诊 室 等 待 检查 结果 出 来 后 才能 
让 具体 的 专科 医生 给 自己 看 病 。 如 今 ， 这 个 过 程 变 成 所 有 的 病人 都 到 达 医 院 后 〈 指令 队列 ) 由 
护士 先 把 他 们 按照 病 种 分 配 到 不 同 的 专科 诊室 〈 等 候 站 ) 。 然 后 这 些 病人 在 这 里 提前 进行 血液 或 
尿 液 等 检查 ， 在 检查 结果 出 来 并 且 医 生 空闲 后 进入 诊室 (功能 单元 ) 看 病 。 


5.9.2 Tomasulo 系统 的 例子 


我 们 将 对 一 个 采用 Tomasulo 方法 的 处 理 器 进行 讨论 。 如 图 5-28 所 示 是 一 个 采用 了 Tomasulo 
控制 的 动态 调度 系统 ， 它 拥有 常规 数据 总 线 。 四 个 功能 单元 都 有 各 自 的 等 候 站 (RS)。 这 些 RS 
与 不 同 的 总 线 和 寄存 器 组 (一 组 寄存 器 用 于 保存 整数 ， 另 一 个 用 于 保存 浮 点 数 ) 相连 ， 且 指令 
队列 〈IQ) 向 它们 发 送 指 令 。 

首先 ， 让 我 们 来 看 看 这 个 系统 是 如 何 工 作 的 。 初 始 时 ，IQ 包含 着 一 系列 指令 ， 正 常情 况 下 按 
照 顺序 向 各 个 功能 单元 发 送 这 些 指令 。 每 条 指令 中 包含 一 个 操作 码 以 及 一 个 或 多 个 操作 数 。IQ 将 这 
些 指令 按 顺 序 发 送 到 正确 RS 的 空闲 槽 里 。 例 如 ， 有 一 条 ADD. D 指令 〈 双 精度 加 法 指令 )》 将 由 IQ 
发 送 至 浮 点 运算 单元 的 RS 里 。 当 正确 的 目标 RS 满 时 ，IQ 就 需要 停顿 一 些 周期 不 发 送 任何 指令 。 
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常规 数据 总 线 (CDB) 
































图 5-28 在 一 个 通用 处 理 器 上 实现 Tomasulo 算法 的 模块 图 。 左 上 角 的 指令 队列 向 四 个 功能 
单元 专属 的 等 候 站 通过 专用 总 线 输送 指令 。 操 作 数 通过 常规 数据 总 线 (CDB) 从 
两 组 寄存 器 被 传送 到 功能 单元 ， 功 能 单元 的 输出 也 通过 CDB 传送 到 寄存 器 组 上 
显然 ， 每 个 RS 的 大 小 都 是 设计 这 种 系统 的 一 个 重要 参数 。 理 想 状况 是 ， 保 持 RS 有 几 个 空 
闲 的 模 ， 如 此 1Q 就 可 以 随时 向 这 些 RS 发 送 指令 。 
每 当 IQ 发 送 一 条 指令 〈 例 如 一 个 操作 数 加 一 个 操作 码 ) ， 它 都 要 检查 操作 数 之 间 的 相关 性 ， 


B41 即 检查 这 条 所 发 送 的 指令 的 操作 数 是 否 来 自 之 前 尚未 执行 的 指令 ， 换 句 话 说， 检查 有 没有 尚未 


解决 的 数据 相关 。 如 果 存 在 相关 性 ， 那 么 指令 就 会 被 发 送 至 RS ， 同 时 赋予 一 个 “虚拟 ”的 操作 
数 来 替代 尚未 得 到 的 操作 数 。 如 果 不 存在 相关 性 ， 那 么 发 送 指令 时 就 赋予 它 一 个 真正 的 (已 知 
的 ) 操作 数 。 

所 有 的 RS 都 是 相互 独立 的 。 只 要 指令 的 操作 数 全 部 已 知 并 且 功 能 单元 空闲 ，RS 在 每 个 周期 
都 可 以 向 功能 单元 发 送 指令 。 

一 般 来 说 ， 每 个 功能 单元 处 理 指令 的 时 间 长 短 各 不 相同 ， 因 此 RS 空闲 率 是 不 同 的 。 如 果 一 
个 RS 内 有 超过 一 条 指令 的 所 有 操作 数 都 是 已 知 的 ， 那 么 最 先进 入 RS 的 指令 将 会 被 先 发 送 。 常 
规 数据 总 线 (Common Data Bus，CDB) 用 于 将 结果 写 回 寄存 器 〈 这 是 一 台 取 数 - 存 数 机 器 ) ， 但 
在 每 个 时 钟 周 期 CDB 只 能 写 回 一 个 结果 ， 所 以 如 果 在 一 个 时 钟 周期 里 有 两 条 指令 同时 完成 ， 那 
么 仍旧 是 最 先 发 送 的 指令 首先 被 放 至 CDB 上 。 

每 个 RS 都 会 不 停 地 “监听 ”CDB。 任 何 存放 了 带 有 虚拟 操作 数 的 指令 的 RS 都 要 查看 所 写 
回 的 寄存 器 是 否 为 那些 指令 所 等 待 的 操作 数 。 一 旦 是 指令 所 等 待 的 操作 数 ，RS 就 会 从 CDB 上 取 
出 这 个 操作 数 给 那些 指令 。 这 意味 着 CDB 不 仅 要 携带 结果 值 本 身 及 目标 寄存 器 ， 还 要 携带 能 够 
通知 RS 本 结果 是 否 为 那些 指令 所 等 待 的 操作 数 的 信息 〈 因 为 一 个 等 待 写 回 R3 寄存 器 的 结果 的 
指令 有 可 能 会 “看 到 ”CDB 多 次 将 结果 写 回 RB3 一 一 而 仅 有 在 原始 代码 中 就 在 该 指令 之 前 且 目 标 
寄存 器 为 R3 的 指令 的 结果 才 是 该 指令 所 要 的 操作 数 ) 。 

1Q 为 每 条 指令 的 每 一 个 操作 数 都 提供 一 个 唯一 的 标签 ， 该 标签 伴随 着 操作 数 通过 RS 、 功 能 
单元 ， 最 后 与 该 指令 的 结果 一 起 出 现在 CDB 上 。 我 们 已 经 知道 ， 那 些 依赖 以 前 指令 结果 的 指令 
在 发 送 时 会 带 有 虚拟 操作 数 。 但 是 这 些 虚拟 操作 数 包含 两 个 信息 一 一 寄存 器 名 和 标签 值 。 存 在 
依赖 的 指令 “监听 ”CDB 实际 上 是 在 “监听 ”那些 写 回 正确 寄存 器 且 带 有 正确 标签 的 结果 。 

让 我 们 通过 一 个 例子 说 明 这 个 过 程 。 假 定 存在 一 个 如 图 5-28 所 示 的 Tomasulo 机 器 ， 其 时 间 
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参数 如 下 : 
取 数 - 存 数 单元 : 5 个 周期 完成 
浮 点 加 法 器 : 2 个 周期 完成 
浮 点 乘法 器 : 2 个 周期 完成 
整数 单元 : 1 个 周期 完成 
等 待 站 长 度 : 1 条 指令 


每 个 周期 发 送 指令 数 : 1 


寄存 器 数 : 32 个 通用 寄存 器 (gpr) +32 个 浮 点 寄存 器 (人) 
在 这 台 机 器 上 执行 以 下 嵌入 式 指令 : 


il LOAD.D fp2, (gpr7, 20) 
122 LOAD.D fp3, (gpr8, 23) 
i3 MUL.D fp4, fp3, fp2 
i4 ADD.D fp5, fp4, fp3 
15 SAVE.D fp4, (gpr9, 23) 
i6 ADD gpr5, gpr2, gpr2 
i7 SUB gpr6, gprl, gpr3 


; fp5=fp4+fp3 
;将 fp4 保 存 华 地 址 ( gpr9+23 ) 


该 程序 执行 的 预约 表 如 表 5-3 所 示 ， 它 展示 了 当 虚 拟 操作 数 确 定时 指令 从 指令 队列 通过 等 候 
站 进入 功能 单元 的 操作 。 最 后 结果 通过 CDB 写 回 。 


表 5-3 这 个 预约 表 给 出 了 一 台 Tomasulo 机 器 执行 一 段 存放 于 IQ 中 的 程序 ， 该 机 器 包含 几 个 等 候 站 
(RS) ， 分 别 为 一 个 取 数 - 存 数 单元 (LSU) 、 一 个 ALU、 一 个 浮 点 ALU ( FALU) 和 一 个 浮 点 乘 
法 单元 (FMUL) 发 送 指令 。 完 成 执行 的 指令 的 结果 通过 常规 数据 总 线 (CDB) 被 写 回 寄存 器 组 。 
在 RS 里 等 待 虚拟 操作 数 确 定 的 指令 和 在 功能 单元 内 多 周期 执行 的 指令 使 用 灰色 表示 


] 1 这 | 雹 1 5 16 +7 


IQ 这 | 讼 | 霹 1 进 1 后 | 完 
RS:lsu 证 交 人 | 
LSU il 

RSi:alu | 
RS 
FALU | 
RS:fmul ， i3 

FMUL | 

CDB 


注意 到 指令 序列 并 至 六 通过 乱 序 执行 的 顺序 为 : 让 、i6、 订 、 


8 19 i101 1, 12! 13, 14, 15, 16' 171 18. 19| 20: 21 


16 i7 |， 
;让 | | 
LT 5 
6 “这 
i6 | 本 | 上 
14 
| 1 
il | 这 也 | i3 i4 


认 、 允 、 放 和 苞 ,， 但 最 后 并 没 


有 都 出 现在 CDB 上 。 有 趣 的 是 ， 如 果 我 们 通过 手动 对 这 些 指 令 进 行 重 排 ,使 得 在 一 个 简单 的 流 
水 线 处 理 器 上 执行 的 时 间 最 小 化 ， 那 么 有 可 能 获得 相同 的 执行 顺序 。 指 令 i6 和 六 与 其 他 指令 不 
存在 数据 相关 ， 可 以 提前 执行 以 便 把 存在 数据 相关 的 指令 分 开 。 

最 后 一 点 需要 指出 的 是 ， 在 这 个 执行 中 最 主要 的 延迟 来 自 存 取 单 元 (lord- store unit，LSU ) 。 
当然 ， 给 出 的 参数 中 指出 每 次 存 取 需要 5 个 周期 (这 在 现代 处 理 器 中 并 不 夸张 ， 虽 然 使 用 片上 
cache 可 以 提高 速度 ) 。 在 给 定 这 种 参数 的 条 件 下 ，LSU 就 成 为 瓶颈 了 。 

一 -种 解决 这 种 瓶颈 的 方法 可 以 是 额外 增加 一 个 LSU 〈 既 可 以 拥有 自己 的 RS， 也 可 以 与 当前 
的 LSU 共用 RS) 。 当 然 ， 不 管 有 多 少 个 LSU， 对 取 数 - 存 数 操作 进行 重 排 才 是 在 Tomasulo 机 器 
上 解决 这 种 瓶颈 的 主要 办 法 。 然 而 ， 读 者 也 需要 意识 到 ， 在 访 存 时 也 会 存在 数据 相关 ， 而 Toma- 
sulo 算法 并 不 能 解决 这 种 问题 。 我 们 通过 考虑 这 样 一 小 段 代 码 来 了 解 这 个 问题 : 虽然 以 下 所 提 到 
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的 3 个 地 址 看 起 来 并 不 一 样 ， 但 它们 在 实际 中 也 可 能 不 存在 。 


i read from (gpr7, 20) 
i2 read from (gpr8, 23) 
i5 write to (gpr9, 23) 


指令 让 从 地 址 (gpr7 + 20) 读数 据 。 如 果 将 gpr7 的 值 设 为 1003， 那么 这 个 地 址 就 是 


1023。 类 似 地 ， 如 果 gpr8 的 值 为 1000， 那么 讼 也 将 从 地 址 1023 读数 据 ， 这 就 引起 了 一 个 读 
后 读 (read-after-read) 冒险 : 虽然 这 并 不 是 一 个 令 人 困扰 的 问题 , 但 是 如 果 能 提前 发 现 还 是 
可 以 优化 掉 的 。 


而 更 多 的 关注 可 能 会 集中 在 此 : 如 果 gpz 与 gp 中 相等 ， 那 么 这 和 七 就 形成 一 个 WAR 冒 


险 (在 5.2.4 节 有 描述 ) 。 在 当前 的 代码 段 中 只 有 一 个 LSU， 不 能 将 上 5 重 排放 置 在 这 之 前 ， 
因此 在 这 种 情况 下 就 不 会 造成 什么 问题 。 然 而 ， 这 也 要 归功 于 辣 与 其 他 指令 存在 着 寄存 器 
依赖 。 


样 ， 
示 ， 


让 我 们 通过 改变 代码 来 说 明 这 个 问题 。 在 此 , 区 变 成 了 s5,SAVE.D fpl， (gp 中 ,23)， 这 
这 条 指令 就 与 其 余 的 指令 没有 寄存 器 依赖 。 我 们 将 加 入 第 二 个 LSU 及 其 RS， 如 图 5-29 所 
并 运行 以 下 代码 : 


i1 LOAD.D fp2, (gpr7, 20) 

i2 LOAD.D fp3, (gpr8, 23) 

13 MUL.D fp4, fp3, fp2 

id ADD.D fp5, fp4, fp3 ;fp5=f{p4+fp3 

55 SAVE.D fpl, (gpr9, 23) ;将 tp 保存 在 地 吉 ( gpr9+23 ) 
i6 ADD gpr5, gpr2, gpr2 

17 SUB gpr6, gprl, gpr3 


常规 数据 总 线 (CDB) 











图 5-29 对 图 5-28 的 基本 Tomasulo 机 器 的 一 个 改进 。 将 单 取 数 - 存 数 单元 改 为 双 取 数 - 存 
数 单元 ， 同 时 对 应 的 等 候 站 也 改 为 两 个 


表 5-4 给 出 了 更 改 后 的 机 器 运行 这 段 新 代 码 的 预约 表 。 值 得 注意 的 是 ， 所 加 入 的 第 二 个 LSU 


显著 提高 了 程序 执行 的 速度 。 现 在 整个 程序 完成 需要 15 个 周期 而 不 是 原来 的 21 个 周期 了 ,并 且 
更 加 紧凑 。 
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表 5-4 这 是 一 个 与 表 5. 3 类 似 的 Tomasulo 机 器 的 预约 表 ， 但 它 拥有 两 个 LSU 及 相应 的 等 候 站 ， 所 执行 
的 程序 被 略微 修改 。 在 CDB、RS 或 是 功能 单元 里 等 待 的 “空间 ”的 指令 ， 被 标 上 * 号 ， 如 
“i6“ ”在 第 9 个 周期 在 ALU 的 输出 进行 等 待 ， 因 为 指令 这 的 结果 当前 正 占用 着 CDB 
1| 2 3| 4 5 61 71 8 9 0 1 I 131 14r TI 
IQ 1 和 入 | 讼 1! 古 生效 | | | 
RS:lsoul i1 | | Te5| 5 | 
LSU1 | | 这 二 六 江门 这 | ”了 | || | | 革 
RS:lsu2 | | 了 | | | | | 
让 二 一 一 re 
ALU | i i | | 证 i6?| 放 
一 | | i : 
FALU | | | | | | | | | [过 
RS:fimul | 131 3| | 
FMUL | | i3 
CDB | | | 林政 下 | 豆 i3: 这 s5 i4 
加 速 是 好 事情 ,但 是 让 我 们 先 来 更 细致 地 考察 访 存 。 请 注意 55 在 第 8 个 时 钟 周期 进入 第 一 - 
个 LSU 并 对 内 存 地 址 (gpm +23) 进行 写 操作 。 同 时 ， 设 仍 从 地 址 (gpr8 +23) 读数 据 。 显 然 ， 
当 gpr8 = 邑 吗 时， 读 和 写 操作 的 目的 地 址 是 相同 的 ， 即 这 将 从 这 个 地 址 读数 据 ， 而 同时 s5 要 对 
这 个 地 址 写 数据 ， 那 么 指令 刀 所 要 读 取 的 数据 就 会 被 污染 从 而 造成 错误 。 
造成 这 种 问题 是 由 于 没有 机 制 来 控制 访 存 的 冒险 。 除 了 跟踪 访 存 或 强制 未 确定 的 内 存 读 写 
按 顺 序 执行 之 外 ， 没 有 更 简单 的 方法 来 解决 这 种 问题 。 


5.9.3 内 入 式 系 统 中 和 的 Tomasulo 算法 


正如 之 前 所 说 的 ，Tomasulo 算法 是 为 大 型 机 如 IBM System/360， 特 别 是 91 模型 而 设计 的 。 
我 们 在 第 1 章 的 图 1-5 中 给 出 了 这 个 巨大 机 器 的 照片 。 那 么 为 什么 在 一 本 计算 机 体系 结构 的 书 中 
介绍 这 种 方法 时 又 要 强调 能 人 式 系统 ? 

首先 ， 乱 序 执行 是 不 能 简单 实现 的 ， 而 对 于 那些 用 于 骨 人 式 系统 的 CPU 设计 ， 乱 序 执行 并 
不 是 设计 人 员 太 愿 意 考 虑 的 。 然 而 Tomasulo 算法 在 提高 性 能 时 仅 需 添加 硬件 ( 等候 站 里 的 额外 
寄存 器 )。 它 也 不 需要 依赖 其 他 一 些 先进 的 技术 如 分 支 预 测 、 超 标量 流水 线 等 ， 只 需要 相对 简单 
的 处 理 器 设计 就 能 实现 乱 序 执行 。 

其 次 ，Tomasulo 算法 可 以 将 指令 执行 分 布 在 整个 系统 中 。 在 指令 发 送 单元 中 并 没有 实际 的 瓶 
颈 ， 它 也 并 不 真正 受制 于 时 钟 速度 (实际 上 ，Tomasulo 算法 很 容易 将 处 理 器 扩展 为 多 功能 单元 ， 
只 需 对 结构 进行 很 小 的 改变 ) 。 系 统 分 布 的 本 质 很 适合 FPGA。Tomasulo 算法 中 最 主要 的 瓶颈 来 
自 CDB， 它 必须 延伸 至 每 一 个 等 候 站 和 每 一 个 寄存 器 组 中 的 每 一 个 寄存 器 。 然 而 ， 这 种 类 型 的 
全 局 总 线 在 FPCA 中 早已 经 布 好 ， 对 其 进行 扩展 比 设计 “ 较 短 的 ”并 行 总 线 还 要 方便 。 

最 后 ， 我 们 在 5. 9. 2 节 的 例子 中 也 提 到 了 额外 的 功能 单元 是 如 何 提 高 性 能 的 (在 这 个 例 
子 中 是 第 二 个 LSU) ， 虽 然 我 们 也 提 到 这 种 额外 的 LSU 还 导致 了 特定 的 内 存 地 址 相关 问题 。 在 
嵌 人 式 系统 中 ， 更 倾向 于 在 编译 时 固定 变量 和 矩阵 的 地 址 ， 并 且 不 需要 为 其 指定 相关 的 基 址 
寄存 器 ， 如 此 就 解决 了 额外 LSU 带 来 的 问题 。 更 重要 的 是 ， 在 做 和 人 式 领 域 一般 都 可 以 预知 在 
系统 上 将 会 运行 什么 软件 ， 如 此 就 可 以 预先 为 这 种 软件 选择 合适 的 功能 单元 〈 实 际 中 很 多 例 
子 都 是 如 此 ) 。 
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5. 10 ”小结 


前 面 几 章 大 多 关注 的 是 计算 的 基础 、 计 算 机 (CPU) 内 的 功能 单元 以 及 这 些 设备 的 操作 ， 而 


本 章 开始 讨论 这 些 设备 的 性 能 一 一 主要 原因 是 性 能 已 经 成 为 当前 计算 机 发 展 的 主要 动力 。 


我 们 看 到 了 几 种 类 型 的 加 速 手段 ， 从 传统 的 提高 时 钟 频率 ， 到 现在 的 已 经 很 成 熟 的 流水 线 、 


CISC 与 RISC 、 超 标量 及 其 他 硬件 加 速 器 〈 如 零 开销 循环 和 专 寻 地 址 硬件 ) 。 


本 章 的 重点 是 流水 线 ， 即 由 冒险 和 分 支 引起 的 性 能 下 降 问题 ， 以 及 如 何 使 用 延迟 分 支 和 


(或 ) 分 支 预测 来 解决 这 种 问题 。 


到 此 我 们 已 经 对 CPU 的 内 部 结构 都 有 了 了 解 ( 除 了 将 在 第 9 章 讨论 的 一 些 更 隐秘 的 方法 


外 ) ， 接 下 来 ,我们 将 注意 力 转向 如 何 与 CPU 进行 通信 ， 即 向 系统 输入 或 从 系统 输出 信息 。 


S.1 


5.2 
5.3 


5.4 


5.5 


5.6 


在 一 些 流水 线 处 理 器 上 ， 条 件 分 支 有 可 能 会 引起 流水 线 阻塞 或 浪费 周期 。 以 下 的 代码 段 会 阻塞 一 个 三 
级 流水 线 ， 为 什么 ? 


MOV RO,R3 ;RO= R3 

ORR R4,R3,R5 ;R4 = R3 OR R5 

AND R7,R6,R5 ;R7 = R6 AND RS 

ADDS RO, R1, R2 ;R0 = R1 +R2, 并 设置 条 件 标志 位 
BGT loop ; 当 结果 大 于 0 时 分 支 


注意 : 指令 后 带 有 “S” 的 指令 意味 着 指令 的 执行 结果 将 会 对 条 件 产生 影响 ， 而 不 带 “S” 的 指令 其 结果 不 会 对 条 
件 代码 产生 影响 。 同 时 假设 每 条 指令 都 在 一 个 周期 内 究 成 。 

对 问题 5. 1 的 代码 进行 重 排 以 避免 阻塞 的 发 生 。 

如 果 ARM 支持 延迟 分 支 ， 那么 可 以 用 BGTD 来 代替 上 面 代码 里 的 BGT。 使 用 BGTD 重 写 问题 5. 1 里 
的 代码 。( 提 示 : 只 需 改 动 一 条 指令 。) 

在 一 个 8 位 RISC 处 理 器 上 ， 执 行 下 列 ARM 指令 ， 初 始 条 件 为 RO =0x0，RI =0xl ，R2 =0xff， 确 定 每 
条 指令 完成 后 的 4 个 标志 位 的 状态 。 





指令 N Zz c Vy 
MOVS R3, #0X7f 
ADDS R4, R3, R1 
ANDS R5, R2, RO 
MOVS R5, R4, R4 
SUBS R5, R4, Rl 
ORR R5, R4, R2 












































指出 以 下 包含 延迟 条 件 分 支 的 ARM 汇编 指令 中 的 4 种 冒险 : 
il ADD R1, R2, R3 


i2 NOTS R1, R2 

3 BEQD loop 

i4 SUBS R4, R3, R2 
iS AND R5,R4,R1 

i6 NOT R1,R2 


分 支 指令 往往 因为 数据 相关 、 指 令 排序 以 及 硬件 能 力 而 引起 流水 线 阻 塞 。 延 迟 分 支 可 以 避免 这 种 阻 


5.7 
$s.8 
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塞 。 请 说 出 另外 两 种 用 于 提高 分 支 人 性 能 的 方法 。 

说 出 两 种 减少 或 移 除 数据 冒险 带 来 的 影响 的 方法 。 

画 出 一 个 能 够 实现 任何 数 与 2 或 10 相 乘 的 硬件 框图 。 使 用 数据 转发 实现 反馈 路 径 。 要 求 如 下 ， 

。 最 多 两 个 单位 移 位 器 。 

。 最 多 两 个 全 加 器 。 

忽略 所 有 的 控制 多 辑 和 存储 寄存 器 。 

将 上 题 实现 的 乘法 器 流水 线 化 ， 使 用 一 个 单位 加 法 器 和 一 个 单位 移 位 器 ， 同 样 忽 略 所 有 的 控制 逻辑 和 
画 出 以 上 三 级 流水 乘法 器 的 预约 表 。 

指出 在 CPU 及 其 协 处 理 器 之 间 传 送 数据 的 主要 机 制 ， 并 指出 这 与 同 构 双核 处 理 器 有 什么 不 同 。 

列 出 5 条 RISC 处 理 器 区 别 于 CISC 处 理 器 的 典型 特性 。 

在 一 个 纯 RISC 处 理 器 上 每 周期 执行 指令 数 (IPC) 的 范围 是 多 少 ? 它 与 一 个 理想 的 能 够 同时 发 送 3 
条 指令 的 超标 量 处 理 器 有 什么 区 别 ? 

一 个 数字 信号 处 理 器 (DSP)〉 实现 了 简单 的 零 开销 循环 硬件 ， 这 个 硬件 带 有 一 个 循环 计数 器 、 一 个 
起 始 地 址 寄存 器 和 一 个 终点 地 址 寄存 器 。 该 硬件 会 检测 程序 计数 器 (PC) 在 什么 时 候 与 终点 地 址 寄 
存 器 相等 ， 如 果 循 环 计数 器 非 零 则 会 重 设 PC 为 起 始 地 址 寄存 器 的 值 。 指 出 以 下 几 种 C 代码 中 哪 种 
适合 以 上 硬件 执行 。 

a.for (loop = 0; loop <99; loop++){ 








< 有 大 量 计算 > 
} 
b. loop = 99; 
do{ 
< 有 大 量 计算 > 
} while {loop-- >0) 
c. while(x +y != 23) { 
< 有 大 量 计算 > 
} 


假设 一 个 程序 中 包含 1224 个 任务 (其 中 200 个 需要 串 行 执行 ， 而 1024 个 能 够 并 行 执行 )， 在 一 个 理 
想 的 16 路 同 构 并 行 机 器 上 执行 该 程序 ， 每 个 任务 需要 2ms 的 CPU 时 间 来 执行 。 请 计算 并 行 执行 的 
加 速 比 。 

参考 框 5.1 的 流水 线 加 速 比 和 效率 的 计算 。 如 果 某 CPU 流水 线 设 计 具 有 68% 的 效率 和 3.4 的 加 速 
比 ， 请 确定 该 流水 线 的 级 数 。 

为 了 对 一 个 数字 音频 进行 延 时 ， 处 理 器 需要 持续 读 取 音 频 采 样 ， 经 过 延 时 后 再 在 某 个 时 刻 输出 它们 。 
对 于 一 个 采样 率 为 8kHz 的 16 位 音频 ， 延 时 1008ms 需要 多 少 个 采样 ? 在 一 个 采用 循环 缓冲 的 
ADSP2181 上 实现 这 个 延 时 ， 使 用 以 下 指令 编写 伪 代 码 。 假 设 开 始 时 缓冲 中 为 空 。 

<reg>=IO (audioport) 将 数据 污 人 寄存 器 

IO (audioport)=<reg> 读 出 寄存器 里 的 数据 














<reg>=DM (I0,MO) 从 内 存 读 出 数据 ， 地 址 由 指针 IO 指出 ， 完 成 后 指针 增加 MO 
DM(I0,M1)=<reg> 将 寄存 器 由 的 数据 存 信 内存， 卫 址 由 指针 IO 指出 . 完成 后 指针 增加 MI 
I0=buffer_staLt 将 指针 TI0 设 和 车 为 内 存 中 缓冲 的 起 始 倍 曾 

LO=buffer_end 设置 循环 缓冲 的 上 限 ( 当 I0=LO 时 ， 重 置 I0 ) 

MO=x 设置 地 址 改变 器 M0 的 值 为 x 

M1=x 设 针 地 址 改变 器 MI 的 值 为 x 

B loop 分 支 至 标签 为 oop 的 程序 段 上 


<reg> 可 以 为 AXO、AX1、AY0 和 AY1 里 的 任意 一 个 。 
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指出 执行 以 下 ARM 条 件 指令 前 哪些 条 件 标志 位 需要 设置 





指令 





BEQ loop 


含义 N z 


如 果 等 于 0 则 分 支 





ADDLT R4, R9, R1 





ANDGE R1, R8, RO 


如 果 小 于 0 则 执行 加 法 | 
如 果 大 于 等 于 0 则 执行 与 








BNE temp 





如 果 不 等 士 0 则 分 支 | | 








简单 六 述 在 什么 情况 下 需要 使 用 影子 寄存 器 。 如 果 处 理 器 不 支持 影子 寄存 器 ， 那 么 程序 员 需 要 采取 
什么 方法 ? 
在 一 个 拥有 12 位 全 局 分 支 预测 器 的 处 理 器 上 跟踪 以 下 指令 的 执行 ， 预 测 器 初始 时 为 “DT" : 


il 


MOV R8, 
MOV RD5, 
lpl: SUBS R8, 
BLE exit 
BGT lpl 


#6 
#2 
R8, 


R5 


;将 立即 数 6 加 载 人 寄存 器 R8 
;将 立即 数 2 加 载 入 寄存 器 R5 
;R8= R8— RS 

;如 果 结 果 小 于 等 于 0 则 分 支 
; 如果 结果 大 于 0 则 分 支 
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Compuler Architecture: An Embedded Approach 


外 部 总 线 





前 面 五 章 描述 了 微 处 理 器 发 展 过 程 中 那些 相对 稳定 、 没 有 什么 革命 性 变化 的 方面 ,包括 : 设 
计 具 有 高 速 处 理 能 力 器 件 的 驱动 力 、RISC 的 概念 ， 以 及 体系 结构 和 指令 集 对 于 高 性 能 程序 设计 
的 支持 等 。 

从 本 章 开 始 我 们 结束 基本 CPU 知识 的 学 习 ， 来 了 解 一 下 核心 逻辑 与 外 部 世界 的 相互 作用 ， 
外 部 世界 是 指 接 口 、 总 线 以 及 一 些 租 入 式 系统 中 与 此 相关 的 特有 概念 一 一 实时 处 理 和 实时 互 操 
作 等 。 

6. 1 总 线 接口 

在 当今 市 场 上 完全 可 以 买 到 一 个 片上 计算 机 ， 它 是 一 块 集成 了 CPU 及 计算 机 外 部 逻辑 的 集 
成 电路 芯片 。 

这 块 芯片 直接 提供 了 一 个 计算 机 系统 所 要 求 的 所 有 外 部 总 线 。 而 在 没有 集成 之 前 ， 在 CPU 
和 外 设 之 间 只 有 内 部 总 线 一 一 现在 这 部 分 处 于 芯片 内 部 而 不 是 芯片 外 部 。 这 种 器 件 称 为 片上 系 
统 或 SoC 处 理 器 。 

以 如 图 6-1 所 示 的 20 世纪 90 年 代 以 来 标准 个 人 计算 机 体系 结构 为 例 ， 它 包括 一 个 CPU 以 及 
围绕 着 它 的 各 个 器 件 。 以 往 这 个 体系 结构 在 一 个 母 板 上 实现 ， 包 括 约 20 个 芯片 ， 而 近 几 年 ， 它 
可 以 在 一 个 片上 系统 器 件 上 实现 。 系 统 同样 采用 标准 接口 ， 只 是 全 部 在 一 块 集成 电路 中 实现 ， 见 
图 6-1 中 的 阴影 区 域 。 


FARAAAAG AAALLAAN FH memory pus 


和 7 0 AH PCI bus 








SCSI USB 阮 “IDE ISA 乡 graphics | pa 


LAAAAAAAAALL 


AAA FI 
ISA bus 


ISA 
Slots 


图 6-1 20 世纪 90 年 代 后 期 标准 个 人 计算 机 体系 结 爸 框图 


在 基于 ARM 的 系统 中 一 般 采用 两 种 标准 总 线 一 一 AHB (ARM Host Bus) 和 AMBA (Advanced 
Microcontroller Bus Architecture ) 。 在 许多 厂家 出 品 的 基于 ARM 的 集成 电路 中 可 以 看 到 这 两 种 总 
线 ， 同 时 ， 在 诸如 ARM 集成 平台 这 类 母 板 上 也 可 以 看 到 以 离散 器 件 实现 这 两 种 总 线 的 方案 。 
ARM 总 线 已 成 为 一 种 业界 标准 ， 用 于 一 些 非 ARM 处 理 器 接口 ， 例 如 基于 SPARC 的 ERC32 处 理 
器 。 这 些 外 部 或 内 部 总 线 标准 使 外 设 制造 商 〈 即 独立 集成 电路 厂商 或 内 部 逻辑 部 件 厂 商 ) 能 够 
生产 出 在 系统 中 协同 工作 的 标准 单元 。 








increasing bandwidth 
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虽然 读者 很 可 能 已 经 了 解 并 行 总 线 的 概念 ， 在 此 我 们 还 是 要 简单 回顾 一 下 。 并 行 总 线 最 重 
要 的 作用 是 它 能 够 支持 多 个 器 件 共享 同一 物理 资源 一 -数据 总 线 一 一 以 传送 输入 或 输出 信息 。 
通常 CPU 作为 主 器 件 ， 负 责 以 控制 信号 实现 对 并 行 总 线 的 控制 。 当 两 个 CPU 共享 总 线 时 就 必须 
有 仲裁 ， 这 个 角色 或 者 由 其 中 的 一 个 CPU 担当 ， 或 者 采用 一 个 独立 的 外 部 总 线 仲裁 器 。 

主 器 件 通过 总 线 控 制 信号 告诉 其 他 器 件 何 时 从 总 线 读 、 何 时 向 总 线 写 。 总 线 兼 容 的 器 件 必 
须 确保 不 向 总 线 写 数据 时 一 定 不 去 驱动 总 线 ， 即 其 输出 总 线 处 于 高 阻 状态 。 


6. 1.1 总 线 控制 信号 


典型 的 总 线 控制 信号 如 下 所 示 ， 其 中 小 写字 母 “n” 表 示 该 信号 低 电 平 有 效 。 

。 nOE 和 nRD 一 一 输出 使 能 / 读 使 能 ， 表 示 主 控制 器 允许 某 个 器 件 向 总 线 写 数据 。 存 储 地 址 
或 片 选 信号 决定 了 被 选中 的 器 件 。 

。 nWE 和 nWR 一 一 写 使 能 ， 表 示 主 控制 器 本 身 将 数据 输出 到 总 线 上 ， 而 另外 的 一 个 或 多 个 
器 件 读 取 该 数据 。 读 取 数 据 的 具体 器 件 通 过 nOE/nRD 指定 。 

。 RD/nWR 一 一 读 / 不 写 。 当 该 控制 线 为 高 时 ， 若 任何 有 效 地 址 或 片 选 信号 出 现 则 完成 一 个 
读 操作 ; 而 当 该 控制 线 为 低 时 ， 若 任何 有 效 地 址 或 片 选 信号 出 现 则 完成 一 个 写 操作 。 

。 nCS 和 mnCE 一 一 片 选 / 片 使 能 信号 ， 每 个 器 件 有 一 个 该 信号 ， 当 信号 有 效 时 表示 相应 器 件 
与 总 线 “ 通 话 ” 。 以 前 ， 由 分 立 的 地 址 译 码 芯片 产生 片 选 / 片 使 能 信号 ， 而 多 数 现代 伐 人 
式 处 理 器 本 身 就 会 产生 该 信号 。 

在 使 用 DIP 封装 技术 的 年 代 ,， 设计 者 必须 最 小 化 集成 电路 管 脚 的 数量 ， 因 此 导致 了 一 些 奇 特 
的 复 用 、 混 合并 行 总 线 设计 ， 其 中 包含 了 一 些 非常 规 的 总 线 控制 信号 。 而 上 面 给 出 的 信号 是 当代 
嵌入 式 处 理 器 和 外 设 中 最 常见 的 形式 。 

其 他 信号 还 包括 nWAIT 线 等 ， 慢 速 外 设 使 用 该 信号 通知 正在 存 取 它们 的 CPU 在 该 慢 速 设备 
准备 好 之 前 不 要 利用 总 线 做 其 他 事情 。 与 此 相配 合 的 信号 还 包括 总 线 准备 好 、 总 线 请 求 、 总 线 许 
可 等 ， 而 后 两 条 控制 线 用 来 实现 直接 存储 器 存 取 (DMA)。 


6. 1.2 直接 存储 器 存 取 (DMA) 


直接 存储 器 存 取 允许 共享 总 线 的 两 个 器 件 彼此 通信 而 无 需 打 扰 控 制 CPU。 如 果 没 有 DMA， 
CPU 要 用 一 条 或 几 条 指令 先 从 源 外 设 上 读 取 一 个 数据 ， 然 后 再 将 数据 写 到 目的 外 设 上 。 对 取 
数 - 存 数 体系 结构 机 器 而 言 ， 以 上 操作 还 会 导致 数据 传输 过 程 中 占用 内 部 寄存 器 。 

DMA 只 需要 少量 的 CPU 介入 以 启动 传输 过 程 ， 之 后 的 传输 操作 基本 上 独立 于 CPU 进行 。 源 
外 设 通 过 外 部 总 线 将 数据 送 到 目的 外 设 上 。 除 了 初始 启动 过 程 ， 在 每 个 字 的 传输 过 程 中 不 再 需 
要 CPU 介 人 ， 也 不 需要 占用 CPU 内 部 寄存 器 。 在 数据 传输 的 同时 ，CPU 可 以 完成 任何 其 他 需要 
的 操作 。 

对 于 有 很 多 设备 共享 总 线 的 系统 而 言 ， 会 有 一 些 DMA 通道 ， 每 一 个 通道 被 赋予 不 同 的 端点 
和 优先 级 ， 如 果 有 两 个 以 上 DMA 通道 同时 要 求 操作 ， 那 么 允许 优先 级 高 的 通道 先 使 用 总 线 。 
框 6. 1 给 出 了 基于 ARM 的 处 理 器 中 DMA 系统 的 工作 过 程 。 
ES 一 种 商用 处 理 器 中 的 DMA 

让 我 们 来 看 一 个 实例 一 一 基于 ARM9 的 S3C2410， 它 是 三 星 公 司 生 产 的 一 款 片 上 系统 处 理 器 。 它 有 4 
个 DMA 通道 ， 一 个 控制 器 位 于 内 部 总 线 和 外 部 总 线 之 间 ， 实 现 内 外 总 线 数据 传输 的 各 种 组 合 。 

每 个 通道 有 5 种 可 能 的 触发 源 ， 以 一 个 包括 三 个 状态 的 有 限 状态 机 控制 。 假 设 我 们 已 经 选 定 了 重复 性 
操作 ， 正确 设 定 了 源 和 目的 地 址 ， 则 具体 操作 如 下 所 示 : 

状态 1: DMA 控制 器 等 待 DMA 请 求 ， 此 时 ，DMA ACK 和 INT REQ 均 为 不 活动 状态 (0)。 如 果 得 到 
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DMA 请 求 ， 则 转 到 状态 2。 

状态 2: DMA ACK 置 1， 设 置 计数 器 为 重复 执行 次 数 〈 即 由 该 通道 传输 的 数据 量 ) ， 然 后 转 到 状态 3。 

状态 3: 从 源 地 址 读数 据 ， 然 后 写 到 目的 地 址 上 。 重 复 该 过 程 ， 计 数 器 递减 ， 直 至 为 0， 此 时 ， 有 选择 
地 中 断 处 理 器 以 示 传输 操作 完成 。 然 后 返回 状态 1。 

虽然 DMA 在 许多 设计 中 改进 了 处 理 器 效率 ， 但 对 于 性 能 关键 的 系统 仍 存在 进一步 改进 的 空 
间 。 事 实 上 ， 在 一 些 CPU 中 DMA 控制 器 本 身 就 是 一 个 简单 的 足够 智能 的 CPU。 以 基于 ARM 的 
Intel IXP425 网 络 处 理 器 为 例 ， 它 包括 一 些 集成 外 设 ， 例 如 USB 、 高 速 串口 和 两 个 以 太 网 MAC 
〈 介 质 存 取 控 制 器 : 一 种 以 太 网 接口 器 件 ) 。 主 处 理 器 工作 频率 为 533MHz， 其 他 三 个 从 处 理 器 工 
作 频 率 为 100MHz， 专 门 处 理 系统 总 线 上 的 输入 /输出 。 这 些 RISC 处 理 器 将 主 ARM CPU 从 宛 长 、 
低 效 的 总 线 操作 和 存储 器 存 取 操作 中 解放 出 来 ， 而 每 个 从 处 理 器 专门 用 来 运行 MAC 协议 ， 使 得 
IXP425 非常 适合 完成 网 络 操作 。 


6.2 并 行 总 线 规范 

基于 ARM9 的 三 星 S3C2410 片上 系统 器 件 的 总 线 工 作 时 序 如 图 6-2 所 示 。 之 所 以 以 此 为 例 是 
因为 三 星 清楚 地 定义 了 时 序 与 参数 ， 以 及 时 序 与 为 数 不 多 的 控制 寄存 器 之 间 的 对 应 关系 。 对 大 
多 数 CPU 而 言 ， 情 况 要 复杂 得 多 一 一 需要 人 工 完成 周期 数 计算 ,包含 组 合 和 分 离 参 数 ， 以 及 常 
见 的 非常 规 行 为 等 。 

HCLK 时 钟 是 主板 时 钟 之 一 ， 用 于 驱动 存储 器 接口 和 片上 其 他 器 件 。 其 工作 频率 一 般 为 
100MHz， 且 在 片 外 无 效 一 一 在 此 仅 作 为 参考 时 钟 。25 位 外 部 地 址 总 线 和 nGCS 片 选 信号 定义 了 
到 外 部 器 件 的 接口 ， 例 如 ROM 或 类 似 的 器 件 (包括 使 用 该 接口 的 大 部 分 外 部 总 线 相连 器 件 )。 
当 与 任何 外 部 器 件 互 操作 时 这 些 信号 有 效 。 图 6-2 底部 的 阴影 部 分 表示 读 写 信 号 及 其 相应 行为 。 

时 序 图 中 一 些 总 线 为 高 阻 状态 ， 即 线 的 位 置 非 高 非 低 处 于 中 间 ， 表 示 该 线 没 有 被 驱动 。 
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图 6-2 “: 星 基于 ARM9 的 片上 系统 S3C2410 的 SRAM 总 线 工作 时 序 图 。 上 半 部 分 是 时 钟 和 总 
的 控制 信号 。 中 部 是 读 操 作 相 关 信和 号 〈 这 期 间 nWE 始终 保持 高 电 平 ) ， 底 部 是 写 操作 
相关 信号 〈 这 期 间 nOE 始终 保持 无 效 ， 即 高 电 平 ) 。 注 意 读 写 操作 不 会 同时 发 生 ， 在 
任何 时 候 最 多 只 有 一 个 操作 发 生 
该 时 序 适 用 于 读 和 写 操作 ， 通 过 S3C2410 寄存 器 可 以 设置 通过 接口 所 连接 的 外 部 器 件 的 访 
问 方 式 。 由 nGCS 片 选 的 每 个 外 部 器 件 共 享 数 据 、 地 址 、 读 / 写 线 等 ， 但 其 时 序 为 独立 设置 。 因 
此 ， 快 速 和 慢 速 器 件 可 以 共存 于 同一 物理 总 线 上 上 ， 只 是 片 选 信号 各 自 独 立 。 
下 表 给 出 了 图 6-2 中 所 示 时 序 信号 的 含义 以 及 与 该 时 序 图 对 应 的 设置 。 
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信号 参量 含义 设置 
Tacs 先 于 nGCS 有 效 的 地 址 设置 时 间 (0、1、2 或 4 周期 ) 1 周期 
Teos 先 于 nOE 的 片 选 设置 时 间 (0、1、2 或 4 周期 ) 1 周期 
Tacc 在 取 周 期 (1、2、3、4、6、8 、10 或 14 周期 ) 3 周期 
Tacp 页 模式 下 存 取 周 期 (2、3、4 或 6 周期 ) 2 周期 
Teoh 在 nOE 无 效 后 片 选 保持 时 间 (0、1、2 或 4 周期 ) 1 周期 
Teah 在 nGCS 无 效 后 地 址 保持 时 间 (0、1、2 或 4 周期 ) 2 周期 


页 模式 是 指 一 些 针对 某 一 器 件 的 重复 性 操作 以 快速 突 发 方式 完成 ， 不 需要 存 取 其 他 器 件 。 
框 6. 2 讨论 了 一 些 采 用 上 述 总 线 连接 外 部 器 件 的 例子 。 注 意 ，- 一 些 器 件 直接 利用 nWAIT 信号 准 
确 地 告诉 CPU Tace 的 长 度 〈 即 外 部 器 件 需 要 CPU 等 待 的 时 间 ) ， 而 有 些 器 件 则 跟 上 述 器 件 的 连 
接 方式 大 不 相同 ， 例 如 SRAM 类 器 件 。 

外 设 连 接 总 线 设置 

下 面 是 一 些 外 部 器 件 连接 示例 。 假 设 总 线 时 钟 为 100MHz ( 即 每 周期 10ns) ， 我 们 来 看 一 下 如 何 利 用 上 
述 信号 实现 连接 。 

问 : 一 个 慢 存 储 器 件 需要 120ns 查找 一 个 内 部 地 址 。 

答 : 这 意味 着 读 写 周期 必须 大 于 120ns。 相 关 设 置 参 数 是 存 取 周 期 Tace 应 设置 为 14 周期 ， 即 大 于 
120ns 的 最 小 周期 数 。 

问 : 一 个 外 设 的 片 选 信号 必须 在 读 信号 之 前 至 少 25ns 有 效 。 

答 : 在 这 种 情况 下 ，nGCS 必须 先 于 nOE 设置 为 低 电 平 ， 相 关 参 数 为 Tacs 应 设置 为 4 周期 ， 即 大 于 
25ns 的 最 小 设置 。 

问 : 一 个 外 设 在 被 读 取 数 据 之 后 ， 保 持 12ns 对 总 线 驱 动 状态 。 

答 : 在 这 种 情况 下 ， 我 们 需要 确保 在 读 该 外 设 之 后 的 12ns 时 间 内 总 线 不 被 其 他 设备 占用 。 相 关 参 数 为 
Teah 或 Teoh 或 两 者 (多 数 情况 下 是 Tcoh)。 为 安全 起 见 我 们 将 二 者 均 设置 为 1 周期 ， 总 共 为 20ns。 该 时 间 
称 为 保持 期 (hold-off period)。 

通常 ， 任 何 外 设 手册 上 都 有 了 时 序 图 ， 由 此 可 以 推导 出 需要 的 信息 。 但 是 ， 当 存在 不 确定 之 处 时 ， 可 以 
先 选择 最 长 或 最 慢 的 数值 作为 起 点 ， 然 后 在 保证 系统 可 靠 工 作 的 前 提 下 逐步 减 小 它们 。 另 外 ， 为 保险 起 见 ， 
应 选择 稍 慢 于 最 快 设置 的 数据 一 一 因为 可 以 在 实验 室 环 境 下 工作 的 最 快 设置 未 必 能 够 在 寒冷 或 炎热 的 实际 
环境 下 工作 ， 未 必 能 够 在 使 用 若干 年 后 仍 正 常 工作 。 


6. 3 标准 接口 

现代 计算 机 ， 无 论 是 脱 入 式 系 统 、 台 式 机 还 是 服务 器 ， 都 倾向 于 使 用 有 限 的 几 种 标准 接口 。 
本 书 只 是 简单 介绍 一 下 比较 常见 的 几 种 接口 及 其 特性 。 

这 些 接口 根据 数据 传输 、 系 统 控 制 、 存 储 器 连接 等 功能 进行 分 类 。 值 得 注意 的 是 很 多 接口 被 
创造 性 地 应 用 ， 超 出 了 原 设计 者 的 设计 考虑 。 


6. 3. 1 系统 控制 接口 


系统 控制 接口 用 于 控制 和 设置 各 种 低速 器 件 。 它 们 的 典型 特征 是 管 脚 空间 有 效 、 相 对 低速 、 
结构 简单 。 下 面 是 一 些 系 统 控制 接口 的 例子 。 

e SPI(Serial Peripheral Interconnect) ， 串 行 多 点 编 址 ，20MHz。 

e IIC(Inter-IC Communications ) ， 串 行 多 点 编 址 ，1MHz。 

e CAN(Controller (or Car) Area Network ) ， 串 行 多 点 编 址 ， 若 于 MHz。 

还 存在 一 些 变种 ， 例 如 Atmel 公司 的 TWI (Two Wire Interface) ，Dallas 半导体 公司 的 1- wire 
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接口 等 。 
6. 3. 2 系统 数据 总 线 


多 年 来 ， 业 内 一 直 致 力 于 引入 标准 总 线 和 并 行 总 线 体系 结构 。 下 表 给 出 了 在 个 人 计算 机 体 
系 结构 中 常见 的 并 行 总 线 。 值 得 一 提 的 是 嵌 人 式 系统 往往 倾向 于 使 用 与 此 不 同 的 总 线 体 系 结构 。 
其 中 有 两 个 典型 例子 ， 一 是 AMBA， 源 于 ARM 公司 和 GEC Plessey 半导体 公司 (后 成 为 Marconi 
公司 的 一 部 分 ， 最 后 被 Mitel 半导体 公司 收购 ) ， 参 见 6. 2 节 S3C2410 例子 中 的 相关 描述 ; 二 是 
APB (ARM Peripheral Bus)。 在 大 量 的 片上 系统 和 髋 入 式 处 理 器 设计 中 均 可 以 看 到 AMBA 和 
APB。 这 些 总 线 的 命运 远 强 于 IBM 于 20 世纪 80 年 代 后 期 引入 的 MCA (MicroChannel Architec- 
ture) ， 尽 管 MCA 被 认为 是 一 个 良 定义 的 总 线 系统 ， 但 最 终 被 EISA 淘汰 。 
























































总 线 名 称 宽度 (位 ) 速度 (MHz) 数据 速率 (MiB/s) 
8 位 ISA( Industry Standard Architecture)》 8 8 4 
16 位 ISA 16 8 8 
EISA( 扩 展 ISA) 32 8. 33 33.3 
32 位 PCI( Peripheral Component Interconnect) 32 33 132 
64 位 PCI 64 33 264 
1 x AGP(Advanced Graphic Port) 64 66 266 
8 x AGP 64 533 2100 
VL-BUS 33 50 132 
SCSI-T& II 8 5 40 
Fast SCSI- II 8 10 80 
Wide SCSLI 16 10 60 
Ultra SCSI-III 16 20 320 
PClexpress 一 一 每 通道 (最 多 32 通道 ) (采用 LVDSO ) 1 2500 > 500 
RAMBUS (184 管 脚 DRAM 接口 ) 32 1066 4200 
IDE®/ATA® 16® 66@ 133® 
SATA (品行 ATA) ， 采 用 LVDS 1 1500 150 
SATA-600 1 未 知 600 


DLYDS: Low-Voltage Differential Signaling。 

(DIDE( Integrated Drive Electronics) : 对 应 于 第 一 个 ATA 实现 。 

(BATA( Advanced Technology Attachment) : 现在 重 命名 为 并 行 ATA 或 PATA， 以 区 别 于 SATA 。 
图 假设 ATA-7 操作 。 

加 在 45 厘米 最 大 线 长 上 运行 时 为 133MHz。 

虽然 有 大 量 的 总 线 系统 (这 里 列 出 的 只 是 比较 常见 的 ) ， 但 它们 存在 着 很 多 的 共性 ， 大 多 数 
采用 了 相同 的 基础 通信 方式 和 仲裁 策略 。 有 为 数 不 多 的 几 种 电压 和 时 序 标准 供 选择 。 

有 时 一 些 电器 特性 相同 的 总 线 在 基于 它 建 立 的 实际 通信 协议 中 被 赋予 了 不 同 的 名 字 和 使 用 
方式 。0SI 层次 参考 模型 ( 见 附录 B) 将 底层 电器 参数 、 硬 件 和 时 序 参 数 等 定义 为 物理 层 的 一 部 
分 ， 而 将 通信 协议 定义 在 数据 链 路 层 。 例 如 物理 层 接口 LVDS 已 被 越 来 越 多 地 用 做 宜人 式 计 算 机 
系统 中 的 高 速 串 行 总 线 。 

下 面 ， 进 一 步 探讨 在 SATA 和 其 他 方案 中 作为 物理 层 的 LVDS 之 前 ,我 们 先 来 了 解 一 下 两 种 
常见 的 传统 总 线 。 

6. 3.2.1 |SA 总 线 及 其 衍生 总 线 
工业 标准 体系 结构 (ISA) 总 线 由 IBM 在 20 世纪 80 年 代 早 期 推出 ， 用 于 个 人 计算 机 《特别 
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是 IBM 个 人 计算 机 ) 总 线 系统 。 很 快 ， 该 8 位 总 线 于 1988 年 在 ISA 的 扩展 版 本 EISA 中 扩展 为 
16 位 及 32 位 总 线 。 每 个 新 的 扩展 版 本 都 与 前 面 的 版 本 兼容 。 

正如 前 面 所 提 到 的 ，IBM 在 此 之 后 试图 转 到 微 通道 体系 结构 (MCA) ， 但 是 由 于 IBM 没有 完 
全 授权 该 总 线 成 为 一 个 完整 的 总 线 标准 ， 很 自然 地 其 他 计算 机 厂家 依然 继续 使 用 EISA 总 线 。 之 
后 ，IBM 放弃 了 MCA,， 但 ISA 后 来 的 衍生 总 线 ， 即 外 部 设备 单元 互联 (PCI) 总 线 和 VESA 本 地 
总 线 ， 确 实 融 合 了 IBM MCA 总 线 的 一 些 特性 。 

作为 总 线 ， 从 使 用 年 限 的 角度 看 ISA 和 EISA 是 很 成 功 的 ， 但 它们 始终 面临 着 严重 的 可 用 性 
问题 ( 见 框 6.3)。 这 些 问 题 伴随 着 无 休止 的 提速 压力 ， 最 终 导致 了 用 于 台式 机 的 PCI 总 线 的 定 
义 和 采 用 。 

ISA 不 仅 派生 出 PCI 和 VESA 总 线 ， 还 有 ATA 标准 ，ATA 标准 又 衍生 出 IDE 标准 、 增 强 型 
IDE (EIDE) 、PATA 和 SATA 等 。 事实 上 ，ISA 还 衍生 出 了 PC 卡 标准 接口 。S 尽 管 ISA 作为 标准 
已 经 经 历 了 30 年 ， 但 它 仍然 作为 传统 总 线 在 当今 计算 机 系统 中 使 用 。 

ISA 面临 的 问题 

ISA 作为 它 那 个 时 代 的 产品 ， 其 设计 是 很 合理 的 : 用 于 Intel 8086 的 8 位 总 线 ， 时 钟 频率 为 
4.77MHz， 工 作 在 5V 电压 下 。 然 而 ， 从 先进 的 CPU 角度 看 它 存在 着 一 些 与 生 俱 来 的 硬件 局 限 性 和 可 用 
性 问题 。 

硬件 局 限 性 

Tntel 8086 和 8088 采用 40 管 脚 双 列 直 插 式 封装 《DIP) ， 分 别 包括 16 位 和 8 位 外 部 数据 总 线 。 由 于 缺 
少 管 脚 ， 外 部 总 线 被 复 用 ， 即 一 些 物 理 管 脚 完 成 两 个 功能 。 即 使 如 此 ， 最 多 也 只 能 有 20 根 地 址 线 ， 即 只 能 
支持 存 取 1MB(2”) 地 址 空间 。 更 强 的 约束 来 源 于 8086 内 部 的 16 位 地 址 寄存 器 ， 它 意味 着 只 能 存 取 64KB 
(2 ) 地 址 空间 。Intel 也 提供 了 两 种 类 型 的 外 部 总 线 存 取 : 存储 器 存 取 (使 用 20 位 地 址 总 线 ) 和 IO 存 取 
(使 用 20 位 总 线 中 的 16 位 总 线 ) 。 有 趣 的 是 现代 许多 系统 中 仍然 保留 着 这 种 存储 器 和 地 址 空间 划分 
与 追求 简洁 的 ARM 之 类 的 处 理 器 不 同 ， 它 们 只 将 存储 器 空间 映射 到 外 部 地 址 空间 。 

虽然 8088 的 管 脚 通过 缓存 和 解 复 用 后 连接 到 JSA 总 线 上 ， 但 总 线 仍然 受到 20 位 地 址 约束 ， 且 采用 分 
立 的 1/0 存 取 (为 此 提供 了 单独 的 控制 管 脚 集合 ) 。 这 样 做 的 优点 是 ISA 总 线 可 以 很 好 地 支持 4 通道 DMA 
( 见 6.1.2 节 )。 

可 用 性 问题 

这 一 点 并 不 单单 针对 嵌入 式 计算 机 系统 ， 但 有 助 于 理解 ISA 被 PCI 替代 的 原因 。 许 多 个 人 计算 机 用 户 
在 安装 ISA 卡 (或 EISA 卡 ) 时 碰 到 了 问题 。 用 户 不 仅 需 要 将 总 线 卡 物理 地 插入 系统 ， 还 起 要 安装 软件 提 
供 多 数 普通 用 户 不 知道 的 信息 ， 例 如 总 线 卡 所 连接 的 170 端口 、DMA 通道 IRQ (中 断 请 求 ) 线 等 。 当 然 ， 
相 比 更 早 的 需要 跳 线 安装 卡 的 设备 而 言 ， 这 种 提供 配置 信息 的 做 法 已 经 是 进步 了 。 

一 些 安装 软件 可 以 扫描 1SA 总 线 以 寻找 已 安装 的 卡 。 有 时 可 以 正常 工作 ， 有 时 却 会 使 系统 崩溃 ， 其 原 
因 是 用 户 输 入 了 错误 的 信息 。 一 些 个 人 计算 机 人 允许 在 BIOS 控制 下 或 在 自动 引导 过 程 中 交换 ISA 插 槽 ， 这 总 
味 着 总 线 卡 今天 能 正常 工作 ,而 明天 未 必 能 。 

为 此 ， 制 造 商 开始 定义 称 为 “ 即 插 即 用 ” (plug and play) 的 标准 ， 简 写成 PP。 理论 上 讲 ， 这 意味 着 
插入 卡 后 即 可 工作 。 但 是 ， 这 个 标准 很 快 就 被 称 为 “ 即 插 即 壬 ” (plug and pray) ， 由 此 导致 了 这 种 总 线 在 
战略 上 让 位 。 很 幸运 ， 由 PCI 蔡 和 代 ISA/EISA。 

6. 3.2.2 PCZ104 


在 嵌入 式 系统 中 出 现 最 多 的 ISA 总 线 版 本 是 由 PC/104 组 织 推 出 的 PC/104 总 线 标准 。 
























































牟 “PC 卡 以 前 叫做 PCMCIA (Personal Computer Memory Card International Association ) ， 不 过 它 还 有 一 个 名 字 “ People 
Can’t Memorize Computer Industry Acronyms” ( 见 htip:/www. sucs. swan. ac. uk/cmckenna/ humour/ computer/ acro- 
nyms. html) 。 

© http:/www. pc104. org。 
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PC/A104 标准 对 印 制 电路 板 小 型 化 提出 了 强制 性 要 求 ， 即 96mm x 60mm， 这 对 于 许多 嵌 人 式 
系统 而 言 是 很 理想 的 。 该 电路 板 的 一 个 边 上 有 一 个 8 位 ISA 总 线 连接 器 。 这 个 2. 5mm 宽 的 连接 
絮 上 分 两 排 排列 了 64 个 管 脚 。 在 顶部 该 连接 器 表现 为 一 个 插 槽 ， 而 在 底部 该 连接 器 表现 为 管 著 。 
这 种 设计 使 得 电路 板 可 以 合 放 在 一 起 。 通 常 ， 一 个 40 管 脚 的 连接 器 ]2/P2 与 另 一 个 连接 器 J1/P1 
到 加 在 一 起 可 提供 一 个 16 位 扩展 ISA 数据 总 线 。 

表 6-1 给 出 了 PC/104 管 脚 的 定义 。 列 A 和 列 B 是 原始 ISA 信号 定义 ， 包 括 与 存储 器 相连 的 
8 位 数据 线 (SD0 ~ SD7) 和 20 位 地 址 线 (SA0 ~ SA19 ) ，LO 读 写 线 (SMEMW*  ，SMEMR  ， 
IOW - )， 若 干 IRQ 管 脚 ， 以 及 DMA 信号 线 〈 以 “D” 开 头 ) 。 连 接 器 提供 的 电压 有 +5V、-5V、 
+l12V、-12V 和 GND。 而 通常 只 使 用 +5V， 除 非 有 驱动 EISA232 等 的 需求 。 


表 6-1 PC/104 连接 器 管 脚 定 义 ， 包含 双 列 连接 器 J1/P1 和 J2/P2 ， 其 中 低 电 平 有 效 信号 用 “ * ”标记 。 
表 中 的 两 个 “key” 是 0. 1 英寸 连接 器 上 和 孔 的 位 置 





管 脚 号 Ji/P1 列 A Ji/P1 列 B J2/P2 列 Cl J2/P2 列 D1 
0 一 一 GND GND 
1 !OCHCHK* GND SBHE* MEMCS16 
2 SD7 RESETDRV LA23 IOCS16* 
3 SD6 +SY LA22 IRQ10 
4 SD5 IRQ9 LA21 IRQ11 
5 SD4 -SY LA20 IRQ12 
6 SD3 DRQ2 LA19 IRQ15 
7 SD2 -12Y LA18 IRQ14 
8 SD1 ENDXFR* LA17 DACKO* 
9 SDO +12V MEMR* DRQO0 
10 IOCHRDY key MEMW DACKS 
11 AEN SMEMW SD8 DRQ5 
12 SA19 SMEMR SD9 DACK6 
13 SA18 IOW™* SD10 DRQ6 
14 SA17 IOR” SD11 DACK7 
15 SA16 DACK3 SD12 DRQ7 
16 SA15 DRQ3 SD13 +SV 
17 SA14 DACK1 SD14 MASTER 
18 SA13 DRQI1 SD15 GND 
19 SA12 REFRESH * key CND 
20 SA11 SYSCLK 
21 SA10 IRQ7 
22 SA9 IRQ6 
23 SA8 IRQS 
24 SA7 IRQ4 
25 SA6 IRQ3 
26 SA5 DACK2 
27 SA4 TC 
28 SA3 BALE 
29 SA2 +SV 
30 SAl OSC 
31 SA0 GND 


CND 
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包括 列 Cl 和 列 D1 的 第 二 个 连接 器 提供 了 更 大 的 地 址 空间 ， 并 把 数据 总 线 扩展 到 16 位 ( 同 
时 提供 了 更 多 DMA 功能 ) 。 这 是 一 个 并 行 总 线 ， 以 SYSCLK 实现 信号 之 间 的 操作 同步 。 
6.3.2.3 PCI 

外 部 设备 单元 互联 (PCI) 总 线 于 20 世纪 90 年 代 早期 发 布 ， 全 面 奉 代 了 ISA/EISA。 虽然 
USB 近年 来 也 成 为 那些 通过 内 部 插 卡 形式 连接 的 外 部 设备 的 又 一 种 可 选 接 口 ， 但 PCI 铠 怕 仍然 是 
当代 应 用 最 为 广泛 的 PC 机 内 部 总 线 。 另外， 以 更 加 快速 的 串 行 连接 为 基础 的 PCI 增强 型 
《PCIe) 在 最 近 的 系统 中 正在 逐步 取代 PCI。 

与 ISA 类 似 ，PCI 也 是 同步 总 线 ， 工 作 时 钟 为 33MHz (或 66MHz)。 另 外 与 EISA 类 似 ，PCI 
一 般 采 用 32 位 数据 总 线 ， 在 较 长 的 连接 器 中 也 可 以 采用 64 位 版 本 。 连 接 器 的 电压 可 以 不 同 ， 有 
3.3V 和 5V 两 个 版 本 。 不 同 版 本 的 连接 器 上 有 不 同 的 凹 构 ， 以 防止 插入 错误 的 连接 器 (一些 
“通用 ” 卡 上 有 两 种 止 槽 ， 因 而 可 以 插 人 到 两 种 版 本 的 系统 中 ) 。 与 ISA 相同 ，PCI 也 提供 了 
+12V 和 -12V 管 脚 ， 但 通常 不 会 使 用 。 

PCI 总 线 复 用 地 址 和 数据 管 脚 ADO ~ AD31 (64 位 版 本 中 到 AD63)， 保 证 了 快速 数据 传输 和 
大 的 存 取 空间 。PCI 定义 了 总 线 仲 裁 系统 ， 使 得 任何 与 总 线 相连 的 设备 可 以 请 求 总 线 ， 而 仲裁 器 
对 于 这 些 请 求 给 予 许 可 应 答 。 总 线 上 置 控制 信号 的 设备 为 主 设备 ， 也 称 为 动作 发 起 方 (initia- 
tor) ， 而 从 设备 称 为 动作 接收 方 〈target) 。 这 实际 意味 着 驱动 总 线 的 电压 信和 号 可 以 来 自 总 线 上 的 
任何 设备 。 这 一 点 对 PCI 总 线 上 信和 号 的 完整 性 有 很 大 影响 。 因 而 ， 对 于 所 有 总 线 上 的 设备 而 言 
PCI 实现 了 非常 严格 的 信号 条 件 规范 。 

可 能 是 因为 始终 没有 忘记 与 ISA 和 EISA 相关 的 可 用 性 问题 ，PCI 器 件 必须 实现 通过 总 线 可 
存 取 的 寄存 器 以 标识 器 件 的 种 类 、 生 产 商 、 项 目 编号 等 。 更 重要 的 是 ， 这 些 寄存 器 还 定义 了 器 件 
LO 地 址 、 中 断 相 关 细 节 以 及 存储 器 范围 。 
6.3.2.4 LVDS 

低 电 压 差分 信号 (LVDS) 是 一 种 非常 高 速 的 差分 串 行 方案 ， 它 利用 同步 的 小 范围 电压 变化 
来 表示 数据 位 。 它 的 宣传 词 为 “以 毫 瓦 获得 吉 比 特 ”， 原 因 是 LVDS 发 出 信号 速度 超过 每 秒 
2Cbit 。 

注意 LVDS 不 是 像 I SA、PCI 这 样 的 总 线 协议 。 它 只 是 一 个 物理 层 通 信和 方案 (参见 附录 B 可 
了 解 这 种 系统 的 分 层 结构 )。 然 而 ，LVDS 已 被 现存 的 许多 总 线 标准 采纳 。 下 面 将 要 讨论 的 扩展 
PCI 就 是 其 中 一 个 例子 。 

在 LVDS 中 每 个 信号 通过 两 条 线 发 送 。 它 们 是 差分 信号 ， 两 条 线 上 电压 的 不 同 组 合 表 示 侵 辑 
0 和 你 辑 1。 差 分 发 送 方案 可 以 排除 常见 形式 噪声 的 和 干扰， 这 种 噪声 的 特点 是 在 两 条 线 上 同时 出 
现 〈 例 如 电力 线 噪声 以 及 来 自 附 近 其 他 器 件 的 噪声 ) 。 事 实 上，LVDS 能 够 用 于 噪声 水 平 超过 信 
号 电压 的 情况 。 

这 种 抗 品 性 使 得 LVDS 连接 可 以 工作 在 较 低 的 电压 变化 范围 。 因 此 需要 相对 较 小 的 功 耗 ， 并 
能 够 达到 较 快 速度 和 产生 较 低 的 电磁 干扰 。 图 6-3 为 LVDS 信和 号 传输 的 示意 图 ， 说 明了 系统 差分 
信和 号 的 性 质 及 其 抗 噪声 原理 。 

LVDS 的 电压 变化 范围 通常 为 0.25 ~ 0.3V。 由 于 信和 号 变换 (和 传输 ) 速度 取决 于 信号 从 一 
个 状态 变 到 另 一 个 状态 所 需 的 时 间 ， 而 LVDS 的 电压 变化 范围 非常 小 ， 因 此 信号 变换 速度 就 很 
快 。 传 输 系统 的 功 耗 与 电压 的 平方 成 正比 ， 因 些 像 LVDS 这 样 的 低 电 压 通 信 方 案 的 功 耗 比 3.3V 
或 5V 逻辑 系统 明显 要 低 。 类 似 地 ， 低 电压 变换 范围 还 使 得 LVDS 产生 的 电磁 干扰 很 低 。 

采用 差分 线 传输 信和 号 还 意味 着 当 一 根 线 上 的 电压 增高 时 另 一 根 线 上 的 电压 降低 。 如 果 我 们 
将 此 与 驱动 电流 相关 联 ， 则 在 任何 时 刻 发 送 器 件 必 须 有 驱动 电流 进入 一 条 线 、 离 开 男 一 条 线 。 当 
一 个 系统 设计 正确 时 ， 电 流入 出 可 以 达到 平衡 ， 这 与 大 多 数 电 压 变换 方案 效果 不 同 ， 那 些 方案 在 
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言 号 变化 的 瞬间 电流 会 出 现 尖 峰 。 供 电 电流 尖峰 转换 成 供电 电压 波动 ， 因 此 会 影响 系统 中 的 其 
他 电路 。 


有 | UU UN 


1 ,， 











I 一 ee - 
所 -所 | | \ | | 
数据 000011111100001101111100 


图 6-3 低 电压 差分 信号 LVDS) 示意图， 显示 了 两 个 被 传输 的 差分 信号 。 在 接收 端 计算 这 两 
个 信号 的 差 值 (V, -V) 并 以 此 确定 在 每 个 时 钟 周期 传输 的 数据 ( 见 底部 )。 虽 然 在 
接收 端 和 发 射 端 都 需要 精确 地 同步 时 间 信息 ， 但 实际 上 只 有 两 个 信号 V 和 (灰色 
阴影 部 分 ) 被 传输 。 在 两 个 被 传输 信号 中 可 以 看 到 存在 少量 噪声 ， 但 在 接收 端 取 差分 
后 被 消除 了 

LVDS 接收 器 通常 需要 从 差分 数据 线 中 提取 时 钟 信和 号。 时 钟 恢复 处 理 比较 复杂 。 但 是 ， 若 要 
与 数据 同时 但 分 立地 传输 时 钟 信号 ,通常 还 需要 一 对 差分 信号 线 。 总 线 LVDS (BLVDS) 是 
LVDS 的 变型 ， 允 许多 个 器 件 共享 一 对 物理 差分 信号 线 。 

前 面 提 到 的 PCI 增强 型 (PCle) 在 人 台式 机 系统 中 逐步 替代 了 PCI。PCIe 通常 需要 指明 有 和 多少 
通道 可 用 。 例 如 ，PCIe 1x 有 1 条 通道 可 用 ，PCle 4x 有 4 条 通道 可 用 ，PCle 32x 有 32 条 通道 可 
用 ,中 间 的 操作 过 程 相同 。 每 个 通道 是 一 对 LVDS 发 送 器 和 接收 器 ( 即 4 个 电 连接 器 ， 两 个 在 同 
一 个 方向 上 ) 。 每 个 通道 的 工作 频率 为 2. 5GHz。 

PCIe 1x 连接 器 非常 小 , 由 36 个 管 脚 组 成 ， 数 据 传 输 率 至 少 为 500Mbits (不 考虑 协议 产生 
的 开销 )。PCle 16x 连接 器 的 尺寸 与 并 行 PCI 连接 器 相似 ， 但 要 快 得 多 。 


6. 3. 3 输入 /输出 总 线 


下 表 列 出 了 典型 的 输入 /输出 (WO) 总 线 ， 其 中 一 些 在 个 人 计算 机 体系 结构 中 比较 常见 
(USB 不 在 其 中 ， 之 后 讨论 )。 









































总 线 名 称 类 型 速度 备注 
EIA232 ， 即 RS232 上 串 行 115200bit/s -12V 和 0V 
EIA422 ， 即 RS422 平衡 串 行 32 器 件 多 接收 端 最 高 10Mbit/s | ”最 低速 时 可 传输 1km 
EIA485 ， 即 RS485 与 422 相同 但 多 输出 端 | 最 高 10Mbit/s 最 低速 时 可 传输 1km 
DDC， 显 示 数 据 通道 串 行 ， 数 据 线 ， 时 钟 线 ， 地 线 基于 了 CC 总 线 
,PS/2， 键 盘 和 和 忌 标 串 行 ，6 管 脚 的 minDIN | 电 特性 同 AT 接口 
IEEE1284 ， 打 印 机 接口 并 行 , 25 管 脚 D 最 高 150kbyte/s | 最 长 8m 564 




















EIA 标准 由 电子 工业 联盟 (Electronic Industries Alliance) 批准 ， 它 采用 “RS” 为 前 缀 表示 推 
荐 标准 ( 即 尚 未 批准 的 建议 标准 )。 例 如 ，EIA232 在 没有 成 为 正式 标准 前 称 为 RS232。 然 而 ， 由 
于 它 以 RS 前 缀 的 形式 应 用 于 几乎 所 有 的 家 庭 和 台式 计算 机 中 ， 因 此 这 个 名 字 沿 用 至 今 。 可 见 ， 
相对 于 消费 者 市 场 的 采纳 速度 ， 标 准 处 理 速 度 存在 滞后 的 问题 ， 这 对 于 各 标准 组 织 而 言 也 许 是 
一 个 教训 。 
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6. 3.4 外 设 器 件 总 线 


下 面 给 出 一 些 常见 的 外 设 总 线 。 近 年 来 该 领域 一 直 朝 着 简单 即 插 即 用 串 行 总 线 方向 发 展 。 

很 多 年 长 的 计算 机 工程 师 肯 定 还 记得 20 世纪 80 年 代 将 打印 机 连接 到 计算 机 上 时 的 痛苦 ， 当时 串 

行 外 设 连接 经 常 出 错 ， 只 有 并 行 总 线 ( 即 6. 3. 3 节 中 所 述 的 IEEE1284) 才 被 认为 是 安全 的 选择 。 

。 USB1.2， 通 用 串 行 总 线 ， 原 来 是 为 键盘 和 鼠标 这 类 设备 设计 的 一 种 串 行 格式 ， 但 之 后 被 
广泛 用 于 各 种 外 设 上 。USB1. 2 的 最 长 距离 约 7m， 基 本 数据 传输 速率 为 12Mbit/s。 作 为 
一 个 串 行 总 线 ， 其 带宽 由 相连 的 所 有 器 件 共享 ， 且 每 个 器 件 要 付出 很 大 的 控制 代价 。 采 
用 USB 的 主要 原因 也 许 是 它 可 以 给 所 有 外 设 供电 ， 使 各 个 外 设 不 需要 分 立 电 源 及 电 
源 线 。 

。 USB2.0， 是 因为 引入 了 Firewire ( 见 下 面 ) 而 出 现 的 。 它 很 大 程度 上 改进 了 USB1. 2 的 速 

度 一 一 提高 到 480Mbit/s。 在 USB1.2 和 USB2. 0 之 间 ，Firewire 在 视频 市 场 上 获得 了 很 大 

的 份额 ， 成 为 将 视频 信息 传输 到 计算 机 的 业界 认可 方法 。 

Firewire， 由 苹果 公司 开发 ， 也 是 一 种 串 行 格式 ， 被 批准 为 IEEE1394 标准 ， 传 输 速率 为 

400Mbit/s。IEEE1394b 将 速率 提高 一 倍 ， 达 到 800Mbit/s, 但 最 大 线 长 为 4.5m 左右 。 与 

USB 类 似 ，Firewire 能 够 给 外 设 供电 ， 但 厂商 并 没有 在 电压 或 电流 上 达成 一 致 标准 。 

。 PCMCIA， 个 人 计算 机 存储 卡 国际 协会 〈6. 3. 2 节 中 曾 简单 提 及 ) 于 20 世纪 90 年 代 初 基 
于 ATA 或 IDE 接口 开发 了 捅 卡 接口 。 它 是 并 行 接口 ， 有 一 些 变种 ， 具 有 很 高 的 速度 。 
后 来 演变 成 紧 致 内存 (compact flash，CF) 接口 。 

。 多 媒体 卡 〈MMC) 是 一 种 串 行 接口 ， 主 要 用 于 相机 和 便携 式 音频 播放 器 中 的 闪存 卡 接 
口 。 进 而 演化 成 安全 数字 (SD 和 xD) 存储 卡 格式 ， 它 保持 着 串 行 接口 性 质 ， 但 允许 多 
位 并 行 传输 。 索 尼 的 记忆 棒 是 又 一 种 产品 ， 在 规格 说 明和 小 尺寸 封装 方面 与 MMC 类 似 。 


6. 3.5 与 网 络 设备 的 接口 


近年 来 ， 网 络 无 处 不 在 ， 人 们 长 时 间 离开 网 络 就 会 感觉 荐 有 所 失 。 片 上 系统 设计 师 没有 忽略 
掉 这 一 趋势 ， 他 们 将 处 理 网 络 连接 的 硬件 模块 集成 到 现代 嵌入 式 处 理 器 中 。 
典型 地 ， 介 质 存 取 控 制 器 〈MAC) 硬件 栈 志 被 集成 到 芯片 中 ， 而 物理 层 时 动 器 (PHY) 还 
没有 被 集成 寺 去 ， 主 要 原因 是 以 太 网 物理 层 接口 名 
由 模拟 驱动 和 不 同 的 电压 要 求 ， 但 可 以 买 到 将 cu | 
cv 


MAC 和 PHY 组 合 在 一 起 的 器 件 。 因 此 ， 预 计 MAC 乡 者 2 2 be 
和 PHY 有 可 能 完全 被 集成 到 一 个 片上 系统 中 。 当 5 
前 的 集成 方案 与 图 6-4 所 示 的 类 似 。 AZ 

假设 网 络 基础 设施 是 以 太 网 ， 图 6-4 中 所 示 的 ”图 6-4 网 络 (以 太 网 ) 数据 通过 MAC 连接 
磁 接 口 与 PHY 相连 形成 了 一 个 常见 的 系统 方案 。 到 CPU 的 示意 图 
MAC 和 PHY 之 间 的 接口 是 传输 介质 独立 的 接口 (Media- Independent Interface，MII) ， 表 示 通 信 
不 简单 局 限于 有 线 以 太 网 。 它 也 可 用 做 符合 MII 标准 的 光 接 口 ， 只 是 可 能 需要 不 同 的 PHY 器 件 。 
无 线 是 另外 一 种 越 来 越 常 见 的 通信 方式 ， 它 也 基于 相同 的 标准 处 理 过 程 ( 将 于 6.6 节 讨 论 ) 


6.4 实时 性 问题 


还 记得 现代 计算 机 的 祖先 们 吗 ? 当时 的 计算 机 占 满 整个 房间 ， 完 成 抽象 的 数据 运算 ， 通 过 离 
散 开关 或 穿孔 卡片 进行 编程 ， 需 要 几 分 钟 甚至 几 小 时 才能 得 出 结果 。 它 们 与 嵌 人 式 系 统 相 差 其 
远 ， 那 些小 小 的 器 件 可 以 能 入 到 人 体 中 调节 血液 里 的 化 学 物质 ， 也 可 以 谋 和 到 家 用 汽车 中 控制 
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刹车 系统 。 后 者 是 硬 实时 系统 的 典型 例子 。 所 谓 硬 实时 是 指 必 须 在 一 定 的 时 间 内 做 出 响应 ， 否 则 
后 果 非 常 严 重 。 

以 前 的 系统 没有 实时 性 要 求 。 它 的 设计 者 可 能 会 考虑 提高 计算 速度 以 便 可 以 早 些 回 家 ,但 
不 会 去 设计 一 个 计算 机 在 毫秒 级 对 外 部 激励 做 出 响应 。 这 意味 着 传统 计算 机 体系 结构 和 编程 语 
言 开发 没有 考虑 到 实时 响应 的 需求 。 

今天 ， 由 于 幅 入 式 处 理 器 远 多 于 台式 机 (而 台式 机 又 远 多 于 大 型 机 )， 计 算 机 世界 越 来 越 多 
地 在 实时 运行 。 大 量 实时 地 与 真实 世界 相互 作用 的 嵌入 式 器 件 就 是 实时 系统 ， 它 们 或 者 是 硬 实 
时 或 者 是 软 实 时 〈( 阁 错 过 时 限 不 会 造成 灾难 性 后 果 ， 则 称 为 软 实时 )。 


6. 4. 1 外 部 激励 


外 部 激励 可 以 有 多 种 形式 ， 但 通常 与 一 些 传感器 相关 。 例 如 核反应 堆 的 过 温度 传感器 、 汽 车 
中 由 气 队 控制 的 加 速度 传感器 、 电 机 管理 系统 中 的 真空 开关 ， 以 及 老式 鼠标 中 的 光电 门 等 。 这 些 
传感器 在 任何 时 候 都 有 可 能 被 触发 。 

其 他 外 部 激励 还 有 以 太 网 上 有 数据 到 来 ， 或 数据 通过 并 行 端口 从 PC 机 输出 到 激光 打印 机 
上 。 这 两 种 激励 来 源 于 计算 机 本 喘 ， 但 由 于 它们 到 达 目 标 处 理 器 的 时 间 不 可 预测 ， 因 此 它们 对 于 
目标 处 理 器 而 言 偿 是 实时 激励 。 


6.4.2 中 断 


到 达 实 时 处 理 器 的 激励 都 会 被 转换 成 标准 形式 来 触发 CPU。 这 些 中 断 信 号 通常 是 低 电 平 有 
效 ， 与 CPU 的 中 断 管 脚 相连 (在 片上 系统 中 一 个 片 内 信号 也 可 以 被 转换 成 低 电 平 有 效 输入 与 
CPU 相连 )。 

多 数 处 理 器 能 够 同时 支持 多 个 中 断 信和 号。 这 些 信号 按 优先 级 排列 ， 当 两 个 或 多 个 中 断 同时 
被 触发 时 ， 首 先 响应 优先 级 最 高 的 中 断 。 

在 6. 5 节 中 将 更 全 面 地 讨论 中 断 ， 这 里 只 是 需要 认识 到 CPU 只 用 很 短 的 时 间 来 发 现 中 断 信 
号 ， 之 后 要 经 过 一 段 较 长 的 时 间 CPU 才能 够 处 理 这 个 中 断 ， 而 针对 该 中 断 实 际 完成 服务 则 需要 
更 长 的 时 间 。 中 断 服务 通过 中 断 服务 例 程 (ISR〉 完 成 一 一 在 5.6.3 节 中 讨论 影子 寄存 器 时 曾 有 
简单 介绍 。 当 设计 一 个 实时 系统 时 ， 必 须 确定 中 断 时 序 并 将 它们 与 任务 的 时 间 范 围 相 关联 ( 见 
6.4.4 节 )。 


6. 4.3 实时 性 定义 


前 面 提 到 了 软 时 限 和 硬 时 限 ， 它 们 均 是 实时 性 约束 ， 区 别 在 于 错过 时 限 导 致 的 后 果 不 同 。 错 
过 硬 时 限 对 系统 而 言 是 灾难 性 的 ， 错 过 软 时 限 是 不 幸 的 但 非 致命 失败 。 

这 些 术 语 也 与 整个 系统 有 关 : 硬 实时 系统 包括 硬 时 限 要 求 。 如 果 所 有 时 限 都 是 软 时 限 ， 则 这 
个 系统 是 软 实时 系统 。 在 选择 操作 系统 时 ， 也 要 考虑 硬 实时 的 程度 。 例 如 uCos 能 够 满足 硬 时 限 
要 求 ， 而 戏 人 式 Linux 通常 只 能 进行 软 实时 响应 。Symbian0S 为 相对 硬 实时 ， 而 微软 的 Windows 
CE 则 比较 偏 软 实时 一 一 这 就 是 完成 关键 任务 的 实时 系统 中 不 使 用 Windows CE 的 原因 。 

一 个 任务 就 是 一 段 实现 一 个 或 多 个 功能 的 程序 代码 ， 可 能 与 实时 输入 或 输出 相关 联 。 在 多 
任务 实时 操作 系统 《RTOS) 中 ,会 有 几 个 任务 并 发 运行 ， 每 一 个 任务 带 有 一 个 优先 级 。 多 数 系 
统 围绕 着 中 断 或 时 钟 设计 ， 这 样 每 次 发 生 中 断 时 ， 都 会 触发 一 个 相应 的 任务 来 处 理 它 。 其 他 一 些 
任务 会 由 时 钟 到 期 来 触发 。 任 务 本 身 可 以 是 中 断 服务 例 程 ， 但 多 数 情况 下 任务 是 单独 的 代码 
(目的 是 保持 ISR 尽量 短 ) ， 因 此 ， 当 ISR 运行 时 利用 RTOS 专门 的 函数 启用 相应 的 任务 。 这 些 专 
门 涵 数 包括 semaphores 、queues 和 mailboxs， 但 它们 超出 了 本 书 讨论 的 范围 ,读者 可 以 在 大 多 数 
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介绍 实时 系统 的 标准 教科 书 中 找到 相关 内 容 。 
许多 任务 大 部 分 时 间 处 于 休眠 状态 ， 等 待 被 ISR 或 其 他 任务 唤醒 ， 此 时 低 优先 级 的 后 台 任 务 
运行 完成 一 些 系 统 相 关 的 功能 或 日 志 ， 其 中 也 包括 了 调整 优先 级 的 工作 。 


6.4.4 时间 范围 参数 

任务 的 时 间 范围 〈temporal scope) 参数 是 一 个 用 以 描述 实时 需求 的 五 元 组 。 对 于 有 时 限 约束 
的 多 任务 实时 系统 而 言 这 是 非常 有 用 的 形式 化 描述 。 

下 面 是 定义 时 间 范 围 的 五 个 参数 ， 除 特别 说 明 外 ， 所 有 的 时 间 起 始 于 触发 该 任务 的 事件 到 
来 的 时 刻 。 


任务 开始 前 最 小 延 时 
任务 开始 前 最 大 延 时 





通常 为 0， 有 时 也 会 特别 要 求 
原则 上 讲 应 该 尽快 地 响应 中 断 ， 但 有 时 会 给 出 一 个 硬 时 跟 

任务 处 理 的 最 长 时 间 | 从 任务 开始 到 结束 的 总 时 间 

任务 占用 的 CPU 时 间 | 它 也 许 不 同 于 上 面 的 参数 ， 因 为 任务 有 可 能 被 中 断 ， 因 此 推迟 一 段 时 间 ， 但 这 期 间 不 占用 CPU 
任务 最 大 完成 时 间 | 从 事件 触发 到 任务 完成 的 时 间 





























多 数 时 间 范 围 参数 可 以 通过 分 析 系 统 需 求 来 确定 ， 但 占用 CPU 时 间 只 能 通过 记录 任务 执行 
的 指令 数 或 通过 0S 提供 的 测量 处 理 器 周期 数 的 方法 得 到 。 关 于 CPU 时 间 有 一 点 需要 注意 ， 即 条 
件 循 环 根据 所 处 理 的 数据 可 长 可 短 。 而 所 说 的 CPU 时 间 是 指 所 有 循环 均 按照 可 能 的 最 长 时 间 来 
计算 。 这 也 就 是 设计 紧凑 任务 代码 的 原因 。 

一 个 任务 图 如 图 6-5 所 示 。 图 中 列 有 三 个 有 效 任务 及 它们 占用 CPU 的 时 间 。 坚 线 表示 调度 
器 工作 的 时 间 点 。 如 果 需 要 ， 它 可 以 切换 任务 。 调 度 器 通常 被 设计 为 一 个 系统 任务 ， 决 定 什 么 时 
刻 选择 什么 用 户 任 务 占 用 CPU。 根 据 RTOS 类 型 的 不 同 ， 可 以 通过 两 种 方式 激活 调度 器 一 一 以 固 
定 的 时 间 间 隔 或 在 任务 调度 点 通过 软件 本 身 的 调用 功能 实现 。 任 务 调度 点 一 般 出 现在 完成 操作 
系统 级 任务 库 函 数 的 时 候 ， 例 如 简单 的 有 printf()， 通 常 在 先进 先 出 《FIFO)、 队 列 、mailbox、- 
言 号 量 操作 时 刻 出 现 。 有 时 将 若干 方法 组 合 起 来 激活 调度 器 。 


























时 间 


图 6-5 在 单 CPU 上 执行 的 三 个 任务 的 调度 图 


在 图 6-5 的 任务 图 中 ,调度 器 第 一 次 被 激活 时 (第 一 个 竖 线 ) 任务 1 正在 执行 。 调 度 器 没有 
进行 任务 切换 ， 因 此 任务 1 继续 执行 ， 其 原因 可 能 是 任务 1 在 三 个 任务 中 优先 级 最 高 。 习 惯 上 也 
因此 将 任务 1 放 在 图 的 最 上 边 。 

任务 2 每 次 出 现 的 长 度 相 同 ， 说 明 它 每 次 运行 时 均 完成 相同 的 工作 。 

从 上 面 这 个 例子 也 能 够 稍稍 理解 调度 器 的 工作 方法 。 首 先 ， 任 务 按 优 先 级 排列 。 最 高 优先 级 
的 是 调度 器 ， 最 低 优先 级 的 是 系统 空闲 时 才 执 行 的 空闲 任务 (idle task)。 在 谤 入 式 系统 中 ， 空 
闲 任 务 可 以 处 理 低 优先 级 WO， 例如 打印 调试 信息 或 刷新 LED (利用 低 优先 级 任务 打印 调试 信息 
是 很 常见 的 ,但 是 当 调试 一 个 整体 上 崩溃 的 程序 时 ， 这 样 的 安排 就 起 不 到 帮助 调试 的 作用 了 ， 因 
为 无 法 从 崩溃 的 任务 那里 得 到 调试 信息 ， 而 且 如 果 这 个 任务 一 直 在 运行 ,那么 空闲 任务 就 没有 
机 会 运行 )。 


调度 器 中 有 一 个 表 用 来 记录 所 有 任务 的 状态 : 运行 、 等 待 、 休 了 眠 。 在 一 个 时 刻 只 会 有 一 个 运 
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行 态 任务 ， 可 以 有 多 个 处 于 等 待 状态 的 任务 〈 即 等 待 运行 机 会 ) 。 休 了 眠 任务 处 于 停止 状态 ， 可 能 
是 临时 等 待 信号 量 或 某 个 数据 以 进入 队列 或 mailbox。 框 6.4 列 出 了 一 些 设置 调度 优先 级 的 方法 。 
EECSEZI 调度 优先 级 

给 定 实时 系统 中 的 一 些 任务 ,设计 者 面临 的 一 个 困难 是 如 何 给 任务 设置 优先 级 以 保证 它们 被 正确 调度 。 
这 一 点 非常 重要 一 一 一 些 选 择 可 能 会 导致 系统 不 能 满足 要 求 的 时 限 ( 即 不 可 调度 ) ， 而 一 些小 小 的 改变 就 
有 可 能 使 得 系统 正常 工作 。 下 面 是 一 些 常见 的 形式 化 优先 级 设置 方法 。 它 们 均 需 要 系统 中 所 有 任务 的 时 间 
范围 参数 。 

时 限 单调 调度 : 最 紧 时 限 的 任务 拥有 最 高 优先 级 。 

频 度 单调 调度 : 越 经 常 被 触发 的 任务 其 优先 级 越 高 。 

最 早 时 限 最 先 调度 : 这 是 一 个 动态 调度 方法 ， 根 据 即 将 出 现 的 时 限 赋予 相应 任务 高 优先 级 。 

其 他 还 有 最 重要 最 优先 、 自 组 织 、 轮 询 和 其 他 一 些 混合 方案 (多 数 都 自称 比 其 他 的 好 ) 。 


6. 4.5 硬件 体系 结构 对 实时 操作 系统 的 支持 


这 是 一 本 计算 机 体系 结构 而 不 是 实时 系统 的 教科 书 ， 因 此 它 更 多 考虑 的 是 在 处 理 器 上 运行 
实时 操作 系统 对 硬件 的 需求 ， 可 不 讨论 实时 性 对 操作 系统 的 需求 。 让 我 们 来 回顾 一 下 当 实时 事 
件 发 生 时 经 历 的 过 程 。 


事件 引发 对 处 理 器 的 中 断 信 号 

处 理 器 发 现 中 断 

处 理 器 需要 一 小 段 时 间 完 成 正在 进行 的 工作 ， 转 到 中 断 向 量 ， 再 由 此 获得 与 该 中 断 向 量 关 联 的 ISR 人口 地 址 
处 理 器 从 当前 执行 的 程序 转 到 一 -个 中 断 服 务 例 程 

ISR 应 答 中 断 ， 释 放 -个 任务 处 理 该 事件 

任何 较 高 优先 级 的 等 待 态 任 务 优先 执行 

最 后 ， 切 换 到 处 理 该 事件 的 任务 上 下 文 

该 任务 处 理 这 个 事件 





























| 人 |- 


这 8 个 步骤 ( 详 见 6.5.2 节 ) 中 的 每 一 个 都 会 占用 一 些 时 间 ， 因 此 会 影响 系统 的 实时 响 
应 时 间 。 

硬件 中 断 支持 〈 详 见 6.5 节 ) 能 够 极 大 地 改进 响应 时 间 。 而 服务 于 任务 的 0S 功能 ， 特 别 是 
从 前 一 个 运行 代码 切换 到 ISR， 以 及 任务 之 间 的 切换 ， 是 十 分 耗 时 的 ， 也 可 以 通过 硬件 加 速 。 

首先 ， 影子 寄存 器 ( 见 5.6.3 节 ) 可 以 加 速 从 一 段 代码 到 另 一 段 代 码 的 切换 。ARM 实现 了 
几 个 影子 寄存 器 集合 ， 其 中 之 一 是 监控 程序 (supervisor) ， 专 门 用 于 支持 0S 代码 ， 例 如 调度 器 ， 
因此 ， 运 行 调度 器 不 需要 进行 耗 时 的 上 下 文 存储 和 恢复 过 程 。 

一 些 CPU 采用 了 更 进一步 的 设计 ， 实 现 了 若干 组 寄存 器 ， 给 每 一 组 寄存 器 分 配 单独 的 任务 ， 
因此 ,任务 之 间 切 换 就 很 容易 了 。 不 需要 上 下 文 存储 和 恢复 ， 简 单 地 从 一 个 寄存 器 组 切换 到 另 一 
个 寄存 器 组 即 可 。 

也 可 以 用 硬件 FIFO 和 堆栈 来 高 效 实现 mailbox 和 队列 以 进行 任务 之 间 的 通信 (否则 就 要 用 
软件 实现 数据 在 不 同 存储 块 之 间 的 搬移 ) 。 硬 件 实现 方案 因为 大 小 固定 而 缺少 灵活 性 ， 但 速度 非 
常 快 。 

虽然 硬件 实现 的 调度 器 没有 被 计算 机 体系 结构 设计 师 采 纳 ， 但 理论 上 讲 这 是 可 行 的 。 也 
许 对 于 调度 过 程 最 高 性 能 的 硬件 支持 是 双核 (或 多 核 ) 处 理 器 ， 它 可 以 支持 超 线程 之 类 的 技 
术 。 这 样 ， 两 个 任务 就 可 以 同时 运行 了 。Intel 的 最 新 处 理 器 Centrino Core 中 采用 了 一 种 MIMD 
处 理 结构 ( 见 2.1.1 节 )。 其 他 制造 商 肯定 也 会 紧 随 其 后 ( MIMD 和 双核 的 有 关内 容 参 见 
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5. 8.1 节 )。 


6.5 中断 和 中 断 处 理 


本 节 将 讨论 中 断 及 其 开销 ， 并 考虑 如 何 提高 服务 速度 。 我 们 在 5. 6. 3 节 已 经 描述 了 用 于 中 断 
服务 例 程 (ISR) 的 影子 寄存 器 ， 所 以 本 节 不 再 论述 它们 对 提高 性 能 的 作用 。 


6. 5. 1 ”中断 的 重要 性 


中 断 及 其 处 理 是 计算 机 体系 结构 和 嵌入 式 软件 工程 最 重要 的 课题 之 一 。 随 着 计算 机 与 真实 
世界 之 间 相 互 作用 程度 的 不 断 增加 以 及 嵌入 式 计算 机 系统 的 作用 越 来 越 关键 中断 承担 起 越 来 
越 重 要 的 工作 ， 其 中 就 包括 确保 处 理 器 能 够 尽快 地 响应 实时 事件 。 

前 面 讨 论 过 实时 事件 ， 这 里 还 有 必要 对 三 个 与 中 断 相关 的 时 序 特征 做 一 个 回顾 。 

1. 中 断 探测 时 间 一 一 从 CPU 发 现 事件 发 生 时 刻 到 能 够 做 出 响应 动作 时 刻 之 间 的 时 间 。 

2. 中断 响应 时 间 一 一 从 CPU 开始 服务 一 个 事件 时 刻 到 按 最 坏 情况 计算 所 有 动作 均 完 成 时 刻 
之 间 的 时 间 。 

3. 最 小 中 断 区 间 一 一 从 一 个 中 断 发 生 时 刻 到 该 中 断 可 以 再 发 生 的 最 早 时 刻 之 间 的 时 间 。 如 
果 中 断 没有 规律 性 ， 则 考虑 所 允许 的 最 短 时 间 间 隔 。 


6. 5.2 中断 过 程 


搞 清楚 一 个 中 断 线 被 置 有 效 后 会 发 生 什么 是 非常 重要 的 ， 因 为 这 些 事件 对 于 系统 体系 结 爸 
有 巨大 影响 。 下 面 进 一 步 细 化 6. 4. 5 节 给 出 的 表格 。 


外 部 事件 引发 对 处 理 器 的 中 断 信 号 

处 理 器 发 现 中 断 

处 理 器 首先 完成 正在 进行 的 工作 ， 然 后 转 到 中 断 向 量 ， 再 由 此 获得 与 该 中 断 向 量 关 联 的 SR 人 口 地 址 
处 理 器 从 当前 执行 的 程序 转 到 对 应 的 中 断 服 务 例 程 

ISR 应 答 中 断 ， 释 放 所 有 等 待 该 事件 的 任务 

任何 较 高 优先 级 的 等 待 态 任务 优先 执行 

最 后 ， 切 换 到 处 理 该 事件 的 任务 上 下 文 

该 任务 处 理 这 个 事件 
































加 | 说 Nm 上 mw | 一 


下 面 我 们 具体 看 看 前 5 步 ， 它 们 受 体系 结构 的 影响 非常 大 。 
6. 5.2.1 中 断 事件 通知 处 理 器 

按照 常规 ,给 CPU 的 中 断 信号 是 低 电 平 有 效 ， 可 以 是 沿 触 发 也 可 以 是 电 平 触发 。 当 状态 发 
生变 化 时 沿 触 发 中 断 信号 通知 CPU 。 处 理 器 以 尽 可 能 快 的 速度 响应 沿 触发 信号 一 一 在 这 个 过 程 中 
中 断 线 有 可 能 已 经 自 复位 。 像 按键 这 类 事件 有 可 能 产生 这 种 中 断 〈 无 论 键 按 下 的 时 间 有 多 长 ， 
处 理 器 都 以 同样 的 方式 响应 ) 。 

电 平 触发 中 汤 在 物理 上 与 此 类 似 一 一 但 处 理 器 在 事先 定义 的 时 间 采 样 中 断 线 状态 例如 每 
周期 一 次 。 一 旦 中 断 信 号 给 出 ， 需 要 在 处 理 器 采样 前 提前 一 个 时 间 段 设 定 ， 这 个 时 间 段 的 长 度 可 
以 设置 。 例 如 ， 应 该 提前 三 个 采样 间隔 而 不 是 一 个 采样 间隔 ， 以 防止 因 品 声 尖 锋 带 来 误 判 。 

中 断 信号 一 旦 发 出 ， 无 论 物理 上 的 中 断 线 是 否 售 用， 内 部 触发 电路 都 应 当 保 持 设 置 。 最 终 ， 
处 理 器 中 的 某 种 编码 将 会 用 于 服务 这 个 中 断 。 问 题 是 : 假若 在 前 面 的 中 断 没有 被 服务 之 前 其 他 
事件 又 触发 了 中 断 线 ， 将 会 带 来 怎样 的 结果 呢 ? 同样 ， 其 结果 依赖 于 采用 什么 处 理 器 ， 但 一 般 情 
况 下 忽略 第 二 次 中 断 事件 。 这 是 因为 内 部 关于 “中 断 发 生 ” 的 标识 一 直 保 持 ， 直 到 在 ISR 中 清 
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除 中 断 指 令 时 才能 复位 。 

然而 ， 过 去 也 有 一 些 处 理 器 能 够 将 中 断 信和 号 排队 (特别 是 响应 中 断 速度 较 慢 的 处 理 器 ) 。 将 
中 断 信 号 排队 听 起 来 是 一 个 好 想法 ,但 使 得 实时 处 理 变 得 很 复杂 ， 因 此 当今 通常 不 把 它 作 为 一 
种 潜在 硬件 方案 。 最 好 的 解决 方法 是 无 论 什么 中 断 事件 发 生 都 以 尽 可 能 快 的 速度 处 理 。 

6. 5.2.2 CPU 完成 正在 进行 的 工作 

现代 处 理 器 不 能 够 在 执行 一 条 指令 的 过 程 中 间 被 中 断 一 一 它们 必须 首先 完成 正在 执行 的 指 
令 。 过 去 的 CISC 处 理 器 用 许多 周期 完成 一 条 指令 ， 这 导致 中 断 响应 时 间 被 延 后 。 例 如 ， 据 说 
DEC 的 VAX 计算 机 需要 1ms 时 间 完 成 一 条 指令 ， 这 对 于 正在 等 待 服务 的 中 断 而 言 是 一 个 相当 长 
的 时 间 〈 以 音频 处 理 为 例 ， 这 意味 着 单个 中 断 可 以 支持 的 最 高 采样 率 为 1kHz， 远 低 于 今天 MP3 
播放 器 的 48kHz 和 44. 1kHz) 。 

大 们 试图 在 使 用 微 码 的 处 理 器 中 允许 在 指令 执行 过 程 中 中 断 ， 但 这 样 做 十 分 复杂 因此 没有 
被 广泛 采纳 。 实 时 系统 设计 者 由 于 RISC 处 理 器 (3. 2.6 节 ) 的 出 现 得 到 解脱 ， 其 单 周期 指令 的 
设计 非常 明智 。 这 意味 着 完成 一 条 指令 的 最 长 时 间 理 论 上 为 一 个 指令 周期 ， 在 RISC 处 理 器 上 一 - 
个 指令 周期 通常 很 得。 这 还 意味 着 在 这 样 短 的 时 间 内 就 可 以 完成 中 斯 发 现 以 及 转 到 中 断 向 量 的 
过 程 。 

实际 上 ， 一 些 设计 者 并 没有 完全 坚持 RISC 的 概念 。 例 如 ARM， 提 供 多 周期 寄存 器 取 和 寄存 
器 存 指令 ， 这 些 指 令 对 于 快速 数据 搬移 或 上 下 文 存储 和 恢复 很 有 用 ,但 完成 它们 最 多 需要 花费 
16 周期 。 因 此 ， 中 断 获 得 中 断 向 量 在 最 坏 情 况 下 的 等 待 时 间 为 16 周期 。 

还 有 一 件 值 得 注意 的 事情 ， 就 是 流水 线 的 作用 。 在 以 流水 线 方式 执行 指令 的 体系 结构 中 ， 虽 
然 每 个 周期 有 一 条 指令 进入 到 流水 线 ， 但 需要 花费 n 周期 才能 够 完成 一 条 指令 ，n 为 流水 线 的 长 
度 。 若 没有 复杂 的 专用 硬件 支持 ， 则 一 个 影子 寄存 器 系统 在 跳 转 到 ISR 之 前 需要 等 待 当前 指令 全 
部 流 过 流水 线 并 保存 好 结果 。 流 水 线 对 于 提高 指令 吞吐 量 是 非常 有 效 的 ， 但 对 于 中 汤 而 言 却 降 
低 了 中 有 断 响应 速度 。 

6. 5.2.3 转 入 中 断 服务 例 程 

处 理 中 断 的 传统 方法 是 一 旦 中 断 发 生 ， 就 将 一 个 预先 设置 好 的 值 放 到 程序 计数 器 中 ， 由 此 
引起 CPU 跳 转 到 一 个 特殊 的 地 址 ， 这 个 特殊 地 址 根据 CPU 的 类 型 而 有 所 不 同 。 这 个 地 址 对 应 的 
存储 单元 在 主 存 中 称 为 中 断 向 量 。 

在 ARM 中 ， 中 断 向 量 开始 于 主 存 地 址 0。 地 址 0 对 应 着 复位 向 量 (rest vector) ， 即 在 上 电 
或 复位 时 CPU 的 入 口 地 址 。CPU 的 每 一 个 事件 和 中 断 按 顺序 排列 。 向 量 表 中 的 内 容 是 转移 到 
事件 处 理 程序 的 分 支 指令 。 人 生计 于 下 且 到 程序 的 分 赤 指 念 。 在 IRQ1 中 是 
转 到 处 理 IRQ1 中 断 的 ISR 的 分 支 指令 ( 当 从 C 语 言 转换 为 汇编 程序 时 ， 经常 使 用 双 下 划 线 
表示 ) 。 

下 面 是 ARM 程序 中 典型 的 中 断 向 量 表 : 


-Start 
-undefined_instruction 
_Ssoftware_interrupt 
prefetch_abort 
data.abort 

notused 





四 四 四 四 团团 
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图 6-6 刻画 了 在 执行 程序 的 过 程 中 如 何 利用 中 断 向 量 表 处 理 中 断 事件 。 


可 以 看 到 ， 首 先 从 复位 向 量 开始 ， 执 行 跳 转 到 起 始 程序 的 
分 支 指令 〈B_ _start)。 程 序 正 常 执行 〈 如 左边 的 实 线 箭头 所 
示 ) 直到 在 第 二 条 SUB 指令 执行 过 程 中 发 生 中 断 。 该 指令 完 
成 后 跳 转 到 该 中 断 对 应 的 中 断 向 量 ， 在 这 个 例子 中 是 IRQ。 虽 
然 图 中 没有 给 出 ， 但 我 们 可 以 假设 在 此 过 程 中 执行 了 向 影子 寄 
存 器 组 的 切换 。IRQ 的 中 断 向 量 中 包含 一 条 到 相应 中 断 服务 例 
程 的 分 支 指令 ， 在 这 里 是 ISR1。 这 个 程序 服务 于 该 中 断 ， 一 
旦 完成 则 返回 到 原来 被 中 断 的 程序 中 的 下 一 条 指令 。 同 样 ， 虽 
然 图 中 没有 给 出 ， 我 们 依然 可 以 假设 在 从 中 断 返回 时 从 影子 寄 
存 器 组 切换 回 到 原来 的 寄存 器 组 。 在 一 些 处 理 器 中 切换 过 程 自 
动 完成 ， 但 在 一 些 处 理 器 中 则 需要 使 用 不 同 的 返回 指令 〈 例 
如 ，TMS320C50 的 RET 指令 完成 从 子 程序 返回 ， 以 及 RETI 指 
令 完 成 从 中 断 返 回 ，RETI 在 返回 时 自动 弹出 影子 寄存 器 组 ) 。 
很 显然 这 种 情况 下 机 器 使 用 了 影子 寄存 器 组 ， 因 为 ISR 和 主 程 
序 代码 中 使 用 了 相同 的 寄存 器 名 ， 而 没有 显 式 地 保存 和 恢复 上 
下 文 的 操作 。 

还 有 一 件 事 值得 一 提 : 向 量 表 中 没有 使 用 的 中 断 都 对 应 着 
NOP 指令 ， 这 意味 着 如 果 这 类 中 断 发 生 ， 则 执行 NOP 指令 ， 
然后 执行 下 一 条 NOP 指令 ， 如 此 下 去 直到 有 什么 事情 发 生 。 
例如 ， 如 果 data_abort 事件 发 生 (由 于 某 种 存储 器 错误 )， 则 
跳 转 到 中 断 向 量 ， 执 行 NOP， 再 执行 下 一 个 NOP， 直 到 最 后 
到 达 跳 转 到 ISR 的 分 支 语 句 。 此 时 ， 虽 然 没 有 IRQ 发 生 ， 但 
ISR1 将 被 执行 。 因 此 ， 对 于 所 有 的 中 断 ， 无 论 它 们 有 没有 被 
使 用 ， 最 好 都 有 对 应 的 中 断 服务 例 程 ， 可 以 只 是 输出 错误 信 
息 ， 这 样 当 该 中 断 发 生 时 至 少 有 错误 提示 。 

框 6.5 给 出 了 ARM 中 斯 时 序 的 一 个 例子 。 

ARM 中 断 时 序 计算 

ARM 有 两 个 外 部 中 断 源 ， 标 准 中 断 (IRQ) 和 快速 中 断 (FIQ)， 
FIQ 有 较 高 优先 级 。 对 于 FIQ 有 6 个 影子 寄存 器 ， 而 对 IRQ 只 有 一 个 
影子 寄存 器 (假设 我 们 需要 4 个 寄存 器 )。 由 于 指令 是 32 位， 外 部 
总 线 是 16 位 ， 因 此 ， 从 存储 器 取 数 到 寄存 器 或 从 寄存 器 存 数 到 存储 
器 需要 2 个 周期 。 





| handler 


SRI1 








B_ _start 3 


NOP “Wundefined instruction 
NOP /software interrupt 
NOP  //prefetch abort 
NOP  //data abort 
NOP /not used 

-= BISRI JR 二 一 一 一 
NOP /WFIQ 


__Start 
ADD  RO.ROR1 
xs SUBS  B3,R6,R9 
$$» BEQ handler 
begin 
MOV  R4.#0x1000 
MPY R4.R6.R4 
LDR R2.R3.[RO.ASL #2] 
NOT  R2.R2 
ADDS R4.R4,R2 
AND R4,R4.R3 





移 SUB R1.R4.R3 

多 SUB 2 RR 
ADDS R4.R4.R2 
BGT begin 
B handler Cm 


-好 LDR RO,[#ade_inl] 

-pp MOV RI.#0x1000 
-bp AND RZ2.R1,RO 

-Pp STR R2,[#dac_out!l] 

p> MOV PC,RI4 








通过 分 支 到 中 断 向 量 表 
调用 中 斯 服 务 例 程 。 图 
中 从 上 电 开 始 的 执行 包 
括 位 于 _ _start 的 初始 化 
分 支 。 在 handler 子 程序 
的 第 二 个 SUB 执行 过 程 
中 中 断 发 生 ， 因 此 ， 在 
ADDS 前 转 人 处 理 该 中 
断 的 服务 程序 。 实 线 箭 
头 表示 正常 操作 ， 虚 线 
箭头 表示 中 断 处 理 过 程 
中 的 控制 流 


IRQ 中 断 向 量 位 于 中 断 向 量 表 的 中 部 ， 而 FIQ 向 量 在 最 后 (这 意味 着 如 果 中 断 程序 直接 放 到 这 个 位 置 ， 


则 不 需要 FIQ 从 中 断 向 量 表 到 中 断 服务 例 程 跳 转 的 分 支 指令 )。 


ARM7 的 最 长 指令 是 从 存储 器 的 连续 空间 批量 取 16 个 数 到 寄存 器 ， 需 要 20 个 周期 。 它 占用 3 个 周期 
来 锁 存 中 断 。 假 设 分 支 指令 需要 2 个 周期 。 存 在 一 种 优先 级 高 于 FIQ 和 IRQ 的 操作 ， 即 SDRAM 刷新 操作 。 


假设 需要 25 个 周期 完成 刷新 操作 ， 则 处 理 器 的 工作 时 钟 为 66MHz。 


我 们 可 以 确定 要 花费 多 长 时 间 才 能 开始 服务 IRQ 和 FIQ。 以 周期 为 单位 ， 下 面 是 当 IRQ 有 效 时 连续 发 


生 的 事情 。 
1. 辨识 中 断 需要 的 时 间 : 3 周期 
2. 最 坏 情况 下 完成 当前 指令 需要 的 时 间 : 20 周期 
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3. 若 SDRAM 需要 刷新 ， 则 需要 等 待 : 25 周期 

此 时 ，CPU 可 以 响应 中 断 。 

4、 从 当前 位 置 跳 转 到 中 晰 向 量 表 以 读 取 其 中 某 行 : 2 周期 

5. 执行 向 量 表 中 的 指令 ， 分 支 到 ISR: 2 周期 

此 时 进入 到 ISR。 

6. 上 下 文保 存 3 个 寄存 器 (我 们 需要 4 个 ， 另 一 个 是 影子 寄存 器 ) 2 x3 =6 周期 

7. 执行 响应 中 断 的 第 一 条 指令 : 2 周期 

总 指令 周期 数 : 60 周 其 

总 时 间 (66MHz 处 理 器 每 周期 大 约 为 15ns): 0. 9hs 

就 中 断 响应 而 言 ls 是 比较 快 的 。 的 确 ， 中 断 响应 速度 快 是 ARM 体系 结构 的 优点 之 一 。 

下 面 我 们 考虑 FIQ 的 情况 。 在 这 个 例子 中 ， 主 要 有 两 点 不 同 。 一 点 是 有 更 多 的 寄存 器 可 以 通过 影子 寄 
存 器 方式 保存 上 下 文 ; 另 一 点 是 FIQ 代码 可 以 直接 驻 存在 中 断 向 量 表 中 ， 不 需要 跳 转 。 因 此 FIQ 与 IRQ 的 
不 同 在 于 : 

8. 不 需要 分 支 到 JSR: 2 周期 

9. FIQ 有 6 个 影子 寄存 器 ， 因 此 不 需要 保存 上 下 文 : 6 周期 

总 指令 周期 数 : 52 周期 

总 时 间 (66MHz 处 理 器 每 周期 大 约 为 15ns): 0.78hs 

在 时 钟 频率 不 变 的 前 提 下 我 们 还 可 以 做 进一步 改进 吗 ? 是 的 ， 我 们 可 以 在 程序 中 避免 使 用 20 周期 的 最 
长 时 间 指 令 ， 可 以 变换 存储 器 技术 。 避 免 使 用 批量 取 数 - 存 数 指令 和 去 掉 SDRAM 剧 新 周期 ， 能 够 帮助 我 
们 达到 0.2hs 的 总 时 间 。 注 意 基于 ARM7 的 处 理 器 通常 不 采用 SDRAM， 而 基于 ARM9 或 以 上 版 本 的 处 理 器 
倾向 于 使 用 。 
6.5.2.4 中 断 重 定向 

关于 中 断 向 量 表 还 有 -一 点 需要 解释 ”假设 存储 器 的 低地 址 部 分 映射 到 ROM， 因 为 其 中 包含 
引导 加 载 程序 (bootloader) ， 而 高 地 址 部 分 的 存储 器 映射 包括 RAM。 如 果 没 有 修改 中 断 向 基 表 的 
机 制 ， 就 意味 着 存储 在 RAM 中 的 代码 不 能 利用 中 断 向 量 。 这 对 RAM 中 想 使 用 中 断 的 代码 是 很 不 
利 的 。 

因此 ， 硬 件 中 通常 会 有 一 个 机 制 将 中 断 向 量 重 新 映射 到 存储 器 的 另 一 个 地 址 空间 〈 框 6.6 给 
出 了 一 个 ARM 处 理 器 上 的 例子 ) 。 在 启动 复位 时 ， 执 行 引导 加 载 程 序 ， 装 载 菜 个 程序 并 开始 执 
行 。 这 个 程序 导致 中 断 向 量 表 被 重新 映射 到 RAM， 了 映射 到 一 个 独占 的 地 址 空间 ， 因 此 可 以 为 所 
有 的 中 断 修改 其 中 断 向 量 。 

小 ”引导 过 程 中 存储 器 重新 映射 

通常 需要 执行 两 个 分 支 才能 够 进入 ISR， 一 些 处 理 器 采用 了 稍微 变化 的 方法 绕 过 这 个 问题 。 例 如 基于 
ARM 的 Intel IXP425 XScale， 在 上 电 初 始 化 阶段 ， 将 闪存 或 ROM 映射 到 存储 器 的 地 址 0 及 以 上 的 空间 ， 以 
便 执 行 引 导 (boot) 程序 。 通 过 设置 CPU 内 部 的 一 个 寄存 器 还 可 以 将 引导 程序 区 映射 到 存储 器 的 最 上 段 空 
间 ， 而 将 SDRAM 映射 到 地 址 0 及 以 上 空间 。 

因此 ， 引 导 加 载 程 序 只 需要 确保 包含 中 断 向 量 的 程序 被 装载 到 内 存 ， 且 最 低 段 地 址 空间 对 应 着 RAM， 
则 引导 加 载 程序 可 以 发 出 重新 映射 命令 。 

可 是 事情 并 不 这 样 简单 ， 因 为 引导 加 载 程序 本 身 从 ROM 地 址 空间 执行 ， 当 重新 映射 发 生 时 ， 引 导 加 载 
程序 代码 就 会 消失 。 换 句 话说， 如果 程序 计数 器 (PC) 位 于 地 址 0x00000104 时 执行 重新 映射 指令 ， 则 当 
PC 递增 指向 下 一 条 指令 地 址 0x00000108 时 (因为 指令 长 度 为 32 位 ， 因 此 PC 每 次 递增 4 字 节 ) ， 那 条 指令 
已 经 不 在 那里 ， 而 是 被 重新 映射 到 较 高 地 址 空间 上 了 。 

有 一 个 简单 的 技巧 可 以 解决 该 问题 。 看 看 你 能 否 在 继续 往 下 读 之 前 知道 答案 。 

如 果 在 重新 映射 之 后 相同 地 址 上 恰好 出 现 原来 的 代码 ， 我 们 的 问题 就 解决 了 。 实 际 上 这 就 意味 着 将 引 
导 加 载 程 序 代 码 抄 贝 到 RAM 的 较 高 地 址 空间 ， 然 后 再 进行 重新 映射 ， XScale 的 一 些 引 导 加 载 程序 版 本 正 是 
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采用 了 这 种 方法 ， 如 U-Boot。 

另 一 种 解决 方案 是 将 引导 加 载 程序 分 成 两 个 部 分 或 两 个 阶段 。 第 一 阶段 中 将 第 二 阶段 执行 的 代码 拷贝 
到 RAM 地 址 空间 ， 然 后 第 一 阶段 跳 转 到 第 二 阶段 并 完成 重新 映射 。 

当 使 用 实时 操作 系统 RTOS 时 ， 可 能 会 有 第 二 层 向 量化 : 所 有 的 中 断 触 发 0S 中 同一 个 ISR， 
而 0S 中 注册 了 外 部 函数 与 相关 事件 之 间 的 对 应 关系 。 当 这 样 注册 的 某 个 事件 发 生 时 ， 中 断 照常 
进行 , 但 0S 中 的 ISR 通过 分 支 跳 转 到 注册 的 中 断 处 理 程序 。 这 种 机 制 可 以 在 不 支持 硬件 中 断 共 
享 的 处 理 器 或 片上 系统 中 实现 中 断 共 享 。 在 这 种 情况 下 ，0S 负责 决定 哪 一 个 共享 中 断 发 生 并 跳 
转 到 相应 的 处 理 程序 。 硬 件 中 断 共 享 方法 将 在 6. 5.4 节 中 介绍 。 


6.5.3 高 级 中 断 处 理 


在 标准 中 断 处 理 过 程 的 基础 上 ， 我 们 再 来 研究 一 下 提高 该 过 程 效率 的 机 制 ， 即 预先 将 中 断 
转移 地 址 取 到 寄存 器 中 。 

设想 常规 情况 : 当中 断 发 生 时 ， 处 理 器 将 跳 转 到 中 断 向 量 表 中 的 指定 位 置 。 表 项 中 包含 一 条 
(有 时 是 两 条 ) 指令 指示 CPU 转移 到 相应 ISR 的 人 口 地 址 。 这 样 ， 该 过 程 需 要 两 个 顺序 分 支 ， 如 
5. 2 节 所 述 分 支 指令 在 采用 流水 线 机 制 的 机 器 中 效率 很 低 ， 因 此 ， 这 种 需要 两 次 分 支 的 方案 不 是 
个 好 方案 。 

可 见 ，CPU 最 好 知道 对 应 着 每 个 事件 中 断 向 量 表 中 存储 的 分 支 地 址 。 为 此 ， 这 个 分 支 地 址 
应 当 存储 在 处 理 器 内 部 ， 即 一 些 寄存 器 中 ， 当 中 斯 发 生 时 将 该 地 址 拷贝 到 程序 计数 器 PC 中 。 若 
向 量 地 址 寄存 器 可 写 ， 就 可 以 对 应 不 同事 件 填写 向 量 地 址 。 这 使 得 ISR 首 地 址 可 以 存放 在 向 量 地 
址 寄存 器 中 。 当 中 断 发 生 时 ， 处 理 器 直接 跳 转 到 ISR 首 地 址 而 不 需要 通过 中 断 向 量 表 一 一 这 种 方 
法 既 可 以 用 于 共享 中 断 ， 也 可 以 用 于 独 享 中 断 。 

这 种 方法 的 代价 是 需要 一 组 可 写 寄存 器 〈 它 比 只 读 寄 存 器 需要 更 多 的 硅 面积 ) 且 中 断 控制 
器 稍微 复杂 了 一 些 。 


6. 5.4 共享 中 断 


今天 的 很 多 计算 机 系统 实现 了 共享 中 断 。 其 最 初 原因 是 只 有 有 限 的 集成 电路 管 脚 用 于 硬件 
中 断 ， 且 在 CPU 内 部 用 于 控制 中 断 的 寄存 器 有 限 。 因 而 导致 许多 中 断 共享 很 少 的 CPU 物理 上 的 
中 断 。 例 如 ，ARM 有 两 个 分 立 中 断 : 一 个 中 断 请 求 《IRQ) 和 一 个 快速 中 断 〈FIQ) ， 而 一 个 基 
于 ARM 的 典型 片上 系统 伐 人 式 处 理 器 往往 会 有 32 个 中 断 源 ， 它 们 共享 IRQ 和 FIQ 线 。 

当 一 个 被 共享 的 中 断 发 生 时 ，ISR 程序 的 开始 部 分 就 要 读 一 个 寄存 器 以 区 分 这 个 共享 中 断 是 
由 哪个 中 断 源 触发 的 ， 之 后 调用 相应 的 代码 来 响应 中 断 。 中 断 也 可 以 由 RTOS 或 软件 中 断 触 发 。 



















































err 
数据 总 线 二 -全 2 
共享 中 断 需 要 一 个 中 断 控制 器 。 中 断 控制 器 可 全 
以 是 一 个 专门 用 于 处 理 中 断 的 集成 电路 芯片 ， 也 可 0 Ce 
以 是 在 片上 系统 嵌 人 式 处 理 器 中 集成 一 个 先进 中 断 屏蔽 寄存 器 : [0 


























控制 器 (Advanced Interrupt Controller，AIC ) 模块 ， 
后 一 种 方案 在 当今 的 设计 中 更 常见 。 图 6-7 是 一 个 
例子 。 

从 这 个 例子 可 见 CPU 本 身 只 有 一 条 由 三 个 外 
设 共 享 的 中 断 线 。 中 断 控 制 器 内 部 有 一 个 CPU 可 图 6-7 用 于 片上 系统 中 中 斯 控制 模块 的 中 断 
写 寄存 器 ， 用 于 屏蔽 共享 这 条 中 断 线 的 某 些 中 断 ， 共享 硬件 框图 
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而 那些 设 有 被 屏蔽 的 中 断 则 会 引发 CPU 中 断 。 

当 CPU 中 断 被 触发 时 ，CPU 通过 读 状 态 寄 存 器 来 确定 引发 该 中 断 的 中 断 源 。 通 常 ， 读 状态 
寄存 器 动作 同时 完成 清空 寄存 器 的 操作 以 便 接受 下 一 个 中 断 请 求 (图 中 的 逻辑 电路 没有 包括 这 
一 部 分 ) 。 


6. 5. 5 可 重 入 代码 


尽管 中 断 信 号 为 了 保证 触发 中 断 响应 保持 了 足够 长 的 有 效 时 间 ， 且 又 有 清除 中 断 机 制 ， 但 
这 并 不 意味 着 同一 个 中 断 可 以 立即 重新 触发 。 虽 然 具体 情况 随处 理 器 的 不 同 而 不 同 ， 但 大 多 数 
器 件 在 服务 某 一 中 断 的 过 程 中 不 允许 相同 的 中 断 再 次 被 激活 〈 即 不 允许 再 人 (re-entrant) 该 中 
断 ) ， 直 到 ISR 执行 完毕 。 或 者 在 第 一 个 中 将 断 处 理 过 程 中 将 忽略 第 二 个 中 断 ， 或 者 在 ISR 完成 
时 立即 引发 重新 中 断 。 

一 些 更 先进 的 处 理 器 允许 高 优先 级 事件 中 断 较 低 优 先 级 的 SR， 这 通常 要 求 硬件 为 每 个 ISR 
提供 影子 寄存 器 或 提供 很 精心 设计 的 上 下 文保 存 和 恢复 功能 。 


6. 5,6 软件 中 断 


软件 中 断 〈SWI) 是 低级 别 软件 中 断 高 级 别 代码 的 一 种 方法 。 在 RTOS 中 ， 它 通常 用 于 操作 
系统 干预 任务 级 代码 处 理 。 在 ARM 处 理 器 中 ， 发 出 软件 中 断 的 代码 为 : 

SWI 0x123456 
它 将 触发 影子 寄存 器 集合 的 切换 。 这 时 处 理 器 将 进入 到 系统 态 〈 而 常规 程序 工作 在 用 户 态 )。 
ARM 在 系统 态 下 有 权 修 改 在 用 户 态 下 不 能 修改 的 设置 ， 系 统 态 结束 时 跳 转 到 中 断 向 量 表 的 第 三 
项 ， 即 地 址 8 (参见 6. 5.2 节 中 的 ARM 中 断 向 量 表 ) 。 

软件 中 断 是 一 种 典型 的 处 理 圳 捕获 ， 对 程序 调试 很 有 用 。 在 软件 某 一 行 设 置 断 点 的 一 种 方 
法 就 是 用 软件 中 断代 茶 这 条 指令 。 一 旦 执行 到 这 条 指令 时 处 理 器 就 会 被 中 断 ， 跳 转 到 软件 中 断 
句 量 ， 然 后 执行 软件 中 断 服务 例 程 。 

在 软件 中 断 服 务 例 程 中 ， 调 试 软件 可 以 存 取 内 存 和 用 户 态 下 的 寄存 器 。 然 后 调试 程序 等 待 
来 自用 户 的 命令 。 


6.6 无 线 


在 一 本 计算 机 体系 结构 教科 书 中 出 现 以 “无 线 ” 为 题目 的 章节 是 很 少见 的 。 这 样 做 的 原因 
是 本 书 是 从 嵌 人 式 的 角度 审视 计算 机 体系 结构 ， 而 越 来 越 多 的 能 人 式 系统 是 关于 或 为 了 实现 无 
线 通 信和 而 设计 的 。 

因此 ， 让 我 们 简单 考察 一 下 无 线 技 术 与 计算 机 特别 是 嵌入 式 系 统 的 相关 性 。 我 们 首先 定位 
无 线 技术 ， 然 后 讨论 接口 技术 及 其 相关 问题 。 附 录 D 提供 了 更 详细 的 信息 并 概述 了 徐 人 式 系统 
可 能 的 解决 方案 。 


6. 6. 1 无 线 技术 


虽然 无 线 工 程 师 根据 射频 频带 ( RF) 、 信 道 带宽 、 发 射 功率 、 调 制 方式 等 将 无 线 技术 分 为 许 
多 类 别 ， 但 是 ， 骨 人 式 系统 工程 师 出 于 其 目的 将 会 考虑 不 同 的 问题 : 





。 与 CPU 的 连接 一 一 尤其 是 串 行 连接 还 是 并 行 连接 。6. 6. 2 节 将 详细 讨论 。 
。 数据 格式 一 一 数据 是 以 位 、 字 节 / 字 符 、 字 还 是 包 为 单位 传输 。 这 不 仅 涉 及 连接 方式 ， 还 





涉及 数据 交换 的 标准 ， 例 如 USB 或 (网 际 协议 ) 包 。 
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数据 速率 一 一 通常 以 位 每 秒 为 度量 单位 (注意 厂家 给 出 的 标 称 值 往往 未 包括 额外 开销 ， 
例如 分 包 、 包 头 、 校 验 码 等 ， 因 此 实际 可 用 数据 速率 可 能 会 远 低 于 标 称 值 ) 。 当 然 ， 数 
据 速率 与 应 用 需求 相 匹配 十 分 重要 ， 但 值得 注意 的 是 对 于 实时 应 用 而 言 数据 速率 并 不 一 


定 与 处 理 时 间 相 关联 。 一 个 每 秒 可 送出 几 兆 位 数据 的 系统 对 单个 事件 的 反应 时 间 可 能 慢 
于 一 个 每 秒 只 能 送出 几 千 位 的 系统 。 
外 形 等 。 低 频 器 件 往 往 需 要 较 大 的 天 线 。 








无 线 电 管理 法 规 对 此 会 有 约束 。 (根据 频带 和 用 途 发 射 功率 
通常 约束 在 0.25W， 最 多 不 超过 1W。，) 

功 耗 因素 一 一 与 发 射 功率 、 范 围 和 数据 速率 相关 。 

错误 处 理 一 一 是 需要 保证 无 错误 通信 ， 还 是 不 需要 考虑 错误 处 理 ? 6. 6. 3 节 将 详细 讨论 


该 问题 。 
。 CPU 开销 一 一 是 一 


个 需要 考虑 的 重要 因素 。 


当 设 计 者 需要 在 伐 人 式 系统 中 实现 无 线 通信 功能 时 ， 要 考虑 上 述 问题 并 寻求 综合 平衡 点 。 

目前 存在 许多 无 线 标准 且 适 合租 人 式 系 统 。 附 录 D 描述 了 其 主要 候选 方案 。 本 节 重 点 讨论 
设计 者 在 分 析 和 评估 候选 方案 时 需要 考虑 的 问题 。 

首先 ， 图 6-8 给 出 了 一 个 无 线 模块 到 应 用 处 理 器 模块 的 连接 框图 。 该 应 用 处 理 器 通常 是 应 用 


系统 中 唯一 与 无 线 模块 相连 的 CPU。 









RF 发 射 链 
RF 接收 链 











图 6-8 上 








处 埋 和 一 个 嵌入 式 应 用 处 埋 。 这 些 器 件 或 者 分 别处 理 各 个 需求 ， 
用 处 理 在 一 起 完成 ， 或 者 b) 一 个 附加 设备 提供 无 线 通 信 功 能 给 应 用 处 理 器 ， 









j 于 嵌入 式 计算 机 的 三 个 无 线 通 信和 处 理 方案 框图 ， 其 中 包括 两 个 计算 器 件 负 和 
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02 三 目 E 多 
EE 
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基带 处 理 


S77 






1 mm 
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责 无 线 通信 
或 者 a) 基带 处 理 与 应 
或 者 c) 


在 一 个 设备 上 处 理 无 线 通信 和 应 用 


很 清楚 ， 无 线 通信 系统 通常 需要 信号 处 理 ， 且 当今 大 多 数 嵌 人 式 系统 设计 师 采用 的 无 线 解 
决 方案 通常 采用 数字 方法 实现 数字 信和 号 处 理 。 前 端 处 理 〈 可 以 用 模拟 方法 实现 ， 但 逐渐 倾向 于 





采用 数字 方法 ) 是 对 接收 到 的 或 要 发 送 的 无 线 信 号 


在 最 前 端 进行 调节 。 要 处 理 的 数据 速率 往往 


在 MHz 或 GHz 量 级 ， 是 位 速率 的 若干 倍 。 相 反 ， 基 带 处 理 是 较 慢 的 协议 层 计算 ， 例 如 包 处 理 、 


包 错 误 校 验 、 跟 踪 重 试 和 重 发 等 。 


当 系 统 设 计 者 没有 选择 遵循 标准 而 是 定义 自己 的 方案 时 ， 基 带 处 理 功能 会 放 在 应 用 处 理 器 


内 完成 (如 图 6-8a 所 示 ) 。 贡 至 有 可 外 


EB 采用 一 个 计算 器 件 完 成 所 有 的 处 理 (如 图 6-8c 所 示 )。 这 


在 技术 上 是 可 行 的 ， 但 会 给 应 用 处 理 器 带 来 很 大 的 协议 处 理 开销 ， 或 者 设计 者 无 法 免费 获得 这 
部 分 的 源 代 码 形式 。 因 此 ， 基 带 处 理 需 要 单独 完成 ， 或 者 在 一 个 单独 的 器 件 中 ， 或 者 集成 到 前 端 


处 理 中 (如 图 6-8b 所 示 )。 


将 无 线 处 理 从 应 用 处 理 器 中 分 离 出 来 的 最 重要 原因 可 能 是 不 想 从 头 开始 。 重 新 设计 一 个 可 
靠 的 无 线 通信 系统 的 确 是 很 困难 的 。 当 存在 已 证 明 可 工作 的 产品 时 ， 最 合理 的 选择 就 是 使 用 它 。 
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6. 6. 2 无 线 接口 


我 们 在 6. 1 节 中 已 经 将 CPU 总 线 分 为 串 行 和 并 行 两 种 ， 对 于 无 线 连接 我 们 也 可 以 应 用 这 种 
划分 方法 。 虽 然 数据 在 空气 中 传播 可 以 是 串 行 、 并 行 或 某 种 混合 方式 ， 但 是 无 线 设备 与 CPU 之 
间 一 定 存在 一 个 接口 ， 或 是 串 行 接口 或 是 并 行 接口 。 

简单 、 慢 速 的 无 线 设备 采用 串 行 接口 : 如 果 在 无 线 链 路 的 一 端 送出 一 个 串 行 数据 ， 就 能 够 在 
无 线 链 路 的 另 一 端 接收 到 这 个 数据 。 如 果 该 链 路 存在 误 码 控制 ， 则 可 以 假设 收 到 的 数据 是 〈 相 
对 而 言 ) 没有 错误 的 。 否 则 ， 应 用 程序 中 就 要 加 入 误 码 校 验 功能 。 无 线 USB 标准 属于 串 行 接口 
范畴 。 

基于 网 际 协议 的 方案 ， 例 如 IEEE802. 11 (Wi-Fi) 和 IEEE802.16 (WiMAX)， 是 基于 块 的 。 
协议 的 处 理 单位 是 整个 数据 包 。 因 此 ， 为 了 提高 效率 ， 这 类 标准 的 无 线 模块 与 CPU 的 接口 通常 
采用 并 行 总 线 并 通过 直接 存储 器 存 取 方 式 〈( 见 6.1.2 节 ) 进行 数据 传输 。 事 实 上 这 很 像 标准 以 
太 网 设备 与 CPU 的 接口 ( 见 6.3.5 节 )。 


6. 6. 3 无 线 相关 问题 


加 入 无 线 模块 使 得 系统 又 增加 了 一 种 连接 方式 。 当 然 ， 无 线 通 信 明 显 会 影响 系统 功 耗 需求 。 
但 是 ， 更 重要 的 还 有 以 下 问题 必须 加 以 考虑 。 

第 一 个 就 是 前 面 提 到 过 的 一 个 问题 ，CPU 开销 。 显 然 ， 当 协议 处 理 功 能 由 应 用 处 理 器 完成 
时 ， 势 必 会 占用 很 大 一 部 分 处 理 器 时 间 (最 坏 情 况 是 每 一 个 接收 到 的 包 都 有 错 )。 然 而 ， 即 使 是 
采用 分 离 器 件 完 成 无 线 信 和 号 处 理 和 协议 处 理 ， 而 应 用 处 理 器 只 是 负责 输入 输出 ， 还 是 需要 许多 
CPU 周期 去 管理 无 线 通 信 。 

当 需 要 考虑 误 码 处 理 时 ， 震 要 辨识 和 处 理 不 同类 型 的 误 码 。 当 然 ， 以 太 网 也 面临 同样 问题 。 但 
以 太 网 要 么 没有 误 码 ， 要 么 整个 包 都 接收 不 到 ， 而 无 线 连接 的 误 码 状况 往往 处 在 两 个 极端 之 间 。 

进一步 的 问题 是 安全 问题 一 一 采用 有 线 网 络 ， 很 容易 知道 被 连接 者 〈 只 需要 顺 着 线 找 即 
可 )。 但 是 无 线 连 接 是 不 可 见 的 。 没 计 痢 必须 意识 到 接收 到 数据 并 作出 回复 的 并 不 见得 是 正确 的 
接收 者 。 随 着 对 人 式 系 统 中 计算 机 技术 的 快速 发 展 ， 更 多 的 人 依赖 这 样 的 系统 生活 和 理财 ， 但 一 
些 观 察 者 已 发 现在 这 个 领域 里 安全 方面 的 进步 速度 远 低 于 技术 创新 。 

最 后 ， 无 线 信号 本 身 渗透 到 发 射 天 线 周围 的 空间 ， 这 些 信号 时 常会 返回 来 进入 到 产生 它 的 
系统 ， 成 为 系统 中 的 总 线 和 连接 线 上 电 噪声 的 主要 来 源 。 这 就 是 电磁 干扰 问题 ， 即 EMI。 最 近 的 
研究 发 现 它 是 影响 系统 稳定 性 的 重要 因素 。 

对 计算 机 系统 设计 者 而 言 有 两 个 主要 影响 。 第 一 个 问题 ， 任 何 一 个 电子 系统 都 是 一 个 潜在 
的 EMI 源 。 不 同 的 总 线 设 计 会 引起 不 同 级 别 的 EMI。 例 如 ，ISA 总 线 因 其 电压 变化 幅度 较 大 且 不 
平衡 的 特质 ， 会 比 LDVS 总 线 产 生 更 大 的 电磁 干扰 。 不 同 的 存储 器 技术 也 会 产生 差异 很 大 的 
EMI。 计 算 机 系统 产生 的 EMI 会 影响 到 它 周边 的 系统 (一些 读者 可 能 还 记得 当 像 ZX Spectrum 那 
伴 的 家 用 计算 机 上 电 时 所 产生 的 EMI 会 使 得 它 旁 边 的 FM 收音 机 停止 工作 ) ， 也 会 影响 到 系统 中 
的 其 他 部 件 。 第 二 个 问题 ， 髓 入 式 系统 设计 者 应 当 考 虑 将 系统 设计 成 为 像 ZX Spectrum 那样 在 有 
干扰 的 环境 下 也 能 够 工作 。 设 计 这 样 系统 的 方法 不 属于 计算 机 体系 结构 的 范围 ， 因 此 在 本 书 中 
不 作 详 细 讨 论 。 在 关于 电路 设计 和 PCB 布局 布线 的 文章 和 书籍 中 会 涵盖 相关 内 容 。 


6.7 小 结 


对 于 搭建 一 个 计算 机 而 言 ， 有 一 个 计算 能 力 很 强 的 CPU 是 很 好 的 开端 ， 但 要 想 成 功 还 取决 
于 给 CPU 提供 数据 以 及 向 外 部 输出 结果 的 方法 。 无 用 的 输入 数据 将 会 导致 无 用 的 输出 数据 ， 这 
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是 一 条 计算 的 公理 。 而 这 条 公理 不 仅 适 用 于 数据 的 质量 ， 也 适用 于 数据 的 数量 和 实时 性 。 


占据 一 


本 章 中 我 们 讨论 了 计算 机 接口 ， 尤 其 是 使 用 内 部 和 外 部 总 线 传递 信息 。 所 有 计算 机 ， 无 论 是 


个 房间 的 大 型 机 还 是 嵌入 在 一 个 药片 中 的 微型 医疗 诊断 计算 机 ， 都 要 求 遂 过 总 线 完成 通 


言 。 虽 然 存 在 大 量 标准 总 线 ， 但 还 在 不 断 涌现 出 更 多 总 线 〈 而 且 没 有 什么 可 以 阻挡 工程 师 设计 
他 们 自己 的 总 线 ) 。 


本 章 我 们 讨论 了 与 总 线 相关 的 两 个 话题 一 是 对 于 当今 以 人 为 中 心 的 通信 式 系统 非常 重要 


的 实时 性 问题 ;二 是 用 于 嵌 人 式 计算 器 件 的 无 线 技 术 。 


至 此 ， 我 们 已 经 完成 了 关于 计算 机 体系 结构 的 讨论 。 在 后 续 章 节 中 ， 我 们 将 重点 转向 实际 应 








284| 用 这 些 技术 。 

6.1 一 个 碟 人 式 40MHz 主 频 CISC CPU ， 最 慢 的 指令 〈 除 法 ) 需要 100 个 时 钟 周期 完成 。 最 快 的 指令 〈 分 
支 ) 只 党 要 2 个 时 钟 周 期 。 有 两 个 中 断 管 脚 分 别 对 应 于 高 优先 级 中 断 (HIQ) 和 低 优先 级 中 断 
(LIQ) 。 一 旦 中 断 管 脚 有 效 ， 需 要 4 个 时 钟 周期 发 现 中 断 并 开始 进入 一 个 到 中 断 向 量 表 的 分 支 。 假 设 
其 他 中 断 不 使 能 ， 卫 中 断 必须 等 待 当 前 指令 执行 完 才能 够 被 服务 。 

a. 计算 最 坏 情 况 下 HIQ 中 断 的 响应 时 间 ， 计 时 从 中 汤 管 脚 有 效 开始 ， 直 到 转 到 包含 在 中 断 向 量 表 中 
的 ISR。 

b，HIQ 的 ISR 要 求 10ms 完成 执行 (从 HIQ 管 脚 有 效 开始 测量 的 最 坏 情 况 ) 。 最 坏 情况 下 LIQ 的 响应 
时 间 是 多 少 ? 

6.2 问题 6.1 中 的 CPU 包含 16 个 通用 寄存 器 。 描 述 可 以 在 CPU 设计 中 用 来 从 减少 上 下 文保 存 和 恢复 时 间 
的 朋 下 过 1SR 让 能 的 硬件 技术 。 

6.3 从 影响 中 断 响 应 时 间 的 角度 评价 以 下 四 种 技术 : 

a. 虚拟 存储 器 

b， 基 于 堆栈 的 处 理 器 
c，RISC 而 不 是 CISC 设计 
d. 较 长 的 CPU 流水 线 

6.4 确定 下 列 系 统 的 实时 性 要 求 ， 确 定 每 个 实时 输入 输出 是 硬 实时 还 是 软 实时 : 
a. 便携 式 MP3 播放 过 
b. 装 在 家 用 汽车 上 的 防 抱 死 刹车 系统 
c. 火灾 报警 控制 和 显示 控制 台 
d 台式 个 人 计算 机 

6.5 末 出 一 个 连接 到 100MHz 处 理 器 上 的 Flash 存储 器 件 的 总 线 工 作 图 。Flash 存储 器 说 明 书 给 出 以 下 
信息 : 

e 40ns 存 取 时 间 
se 20ns 的 保持 时 间 
285 。 20ns 的 地 址 选择 时 间 


6.6 


6.7 


一 个 实时 嵌入 式 系统 监控 一 个 压力 容器 中 的 温度 。 如 果 温 度 超过 某 个 值 ， 系 统 必须 以 1Hz 闪烁 报警 灯 
并 且 打 开 一 个 减 压 阀 。 系 统 每 隔 100ms 从 一 个 串 行 线 上 读 一 次 温度 ， 然 后 用 10ms 左右 将 从 串 行 线 上 
读 得 的 数据 解码 成 温度 值 。 在 最 坏 情况 下 ， 温 度 可 以 在 150ms 内 达到 引起 爆炸 的 温度 。 

如 果 三 个 输入 输出 信号 ( 串 行 温度 输入 ， 上 脉冲 报警 灯 输 出 , 减 压 阀 控 制 ) 分 别 由 不 同 的 任务 处 理 ， 
确定 每 一 个 任务 的 时 间 范 围 并 给 出 它们 的 使 实时 程度 。 

考虑 表 6-1 给 出 的 PC104 接口 及 其 管 脚 定 义 。 在 一 个 实现 了 整个 连接 集合 的 钥 人 式 系 统 中 ， 数 据 总 线 
宽度 是 多 少 ?” 当 使 用 扩展 连接 器 J2/P2 时 ， 系 统 有 一 条 扩展 地 址 总 线 。 计 算 所 允许 的 最 大 寻 址 空间 ， 
以 MiB 为 单位 。 


6.8 


6.9 


6.10 
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在 LVDS 〈 低 电压 差分 信号 ) 方案 中 ， 从 表示 逻辑 0 到 表示 逻辑 1 的 电压 摆 幅 远 小 于 其 他 信号 格式 。 
例如 ，ElA232 (RS232) 中 逻辑 0 和 逻辑 1 之 间 的 压 差 为 12V， 而 许多 LVDS 驱动 器 只 输出 0.25Y 的 
压 差 。 这 是 否 意味 着 在 电气 噪声 较 高 的 系统 中 FIA232 是 更 可 靠 的 选择 ? 对 你 的 回答 给 出 说 明 。 

将 6.3.5 节 中 关于 以 太 网 驱动 器 的 部 分 与 附录 B 中 介绍 的 0SI 层次 模型 关联 起 来 描述 (尽管 实际 上 通 
常 使 用 以 太 网 的 TCPAIP 网 络 系统 采用 了 与 0SI 模型 稍 有 不 同 的 层次 架构 ) 。 

一 个 简单 的 抢占 式 多 任务 召 入 式 计算 机 执行 三 个 任务 ，T1，T2，T3， 它 们 按 顺 序 优先 (优先 级 最 高 
者 先 执行 )。 任 务 TI 需要 lms 的 CPU 时 间 ， 每 10ms 触发 一 次 ， 旦 必须 在 后 一 次 触发 前 完成 。 任 务 
T2 需要 3ms 的 CPU 时 间 ， 每 9ms 触发 一 次 ， 用 必须 在 被 触发 后 8ms 内 完成 。 任 务 T3 要 求 1ms 的 
CPU 时 间 ， 等 6ms 触发 一 次 且 必 须 在 被 触发 后 4ms 内 完成 。 

假设 所 有 的 任务 在 时 间 t=0 时 被 触发 ， 画 出 一 个 该 系统 调度 图 (类 似 于 图 6-5) ， 在 横 轴 上 以 ms 标 
注 时 间 ， 从 时 间 t=0 到 :=40ms。 从 所 示 的 时 间 间 隔 来 看 ， 判 断 是 否 所 有 任务 能 够 满足 它们 的 时 限 。 
重复 问题 6. 10。 所 不 同 的 是 任务 采用 频 度 单调 调度 。 就 各 个 任务 在 第 一 个 :=40ms 的 区 闻 内 满足 时 
限 的 要 求 而 痛 这 种 改动 带 来 什么 不 同 吗 ? 

一 种 消费 电子 设备 需要 一 种 小 尺寸 、 低 功 耗 、 中 等 速度 的 CPU 控制 器 。 讨 论 是 并 行 连接 的 数据 存储 
器 系统 还 是 串 行 连接 的 数据 存储 器 系统 更 适合 。 

如 果 变 化 一 下 问题 6. 12 所 述 的 系统 要 求 ， 使 得 性 能 和 速度 比 尺 寸 和 功 耗 更 重要 ， 是 否 会 影响 你 对 总 
线 的 选择 ? 

如 图 6-9 所 示 为 Atmel AT29LV512 Flash 存储 器 (闪存 ) 设备 时 序 图 。 其 中 的 时 间 参 数 来 源 于 Atmel 
器 件 手册 。 
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图 6-9 ”Atmel AT29LV512 闪存 设备 的 读 周期 (波形 根据 Atmel AT29LV512 器 件 手册 绘制 ) 




















参数 含义 Minimum Maximum 
tacc 访问 时 间 (地 址 有 效 到 输出 延迟 ) 一 120ns 
tcp nCE 到 输出 延迟 一 120ns 
tor nOE 到 输出 延迟 Ons 50ns 
pr nCE 或 nOE 撤销 到 输出 Hi-Z Ons 30ns 
EoH 输出 保持 地 址 ，nCE 或 者 nOEQ@ Ons 一 





从 其 中 任何 一 个 被 设置 为 无 效 时 开始 。 
@@ 当 其 中 任何 一 个 被 设置 为 无 效 或 变化 时 开始 。 
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假设 若 某 个 值 没有 给 定 ， 则 该 值 不 重要 。 该 时 序 图 是 从 某 个 外 部 设备 〔〈 如 CPU) 读 闪 存 的 角度 给 出 
的 。 它 给 出 了 CPU 为 正确 地 读 闪 在 所 必须 遵循 的 时 序 。 

本 题 的 问题 是 ， 确 定 如 何 设置 S3C2410 并 行 接口 时 序 寄存 器 以 保证 它 能 够 正确 存 取 并 行 连接 其 上 的 
Atmel AT29LV512 器 件 。 这 将 需要 仔细 阅读 6. 2 节 (以 及 框 6.2)。 注 意 HCLK 信号 ( 即 总 线 时 钟 ) 
的 工作 频率 为 1 00MHz， 而 Atmel 芯片 使 能 信号 nCE 连接 在 S3C2410 的 nGCS 信和 号 线 上 。 

下 表 给 出 了 镍 要 确定 的 设置 (注意 ， 此 例 中 我 们 忽略 了 页 模式 存 取 周 期 ) 。 



































信和 号 含义 No. of cycles 

Tacs 地 址 建立 到 nGCS 有 效 (0，1，2 或 4 个 周期 ) | 
Teos 芯片 选择 设置 时 间 到 nOE (0，1, 2 或 4 个 周期 ) 

Tace 访问 周期 (1, 2， 3, 4, 6，8，10 或 14 个 周期) | | 
Teoh nOE 无 效 后 片 选 的 保持 时 间 (0，1，2 或 4 个 周期 ) 
Teah nCCS 无 效 后 地 址 的 保持 时 间 (0，1，2 或 4 个 周期 ) | 





6.15 确定 问题 6. 14 中 读 单个 字 的 操作 在 最 坏 情况 下 的 时 间 ， 同 时 对 一 个 更 为 现代 的 闪存 重复 该 计算 ,该 
存储 器 的 存 取 时 间 为 55ns，ice =55ns。 
288j 6.16 Atmel AT25DF041A 是 一 个 4Mbit 的 品行 网 存 ， 使 用 SPI 接口 ， 最 高 工作 频率 为 70MHz。 从 选 定 的 
AT25DF 器 件 上 读 一 个 字 节 需要 作为 控制 器 的 CPU 首先 输出 一 个 读 命令 〈 即 字 节 0x0B) ， 紧 接着 是 
一 个 24bit 地 址 ， 然 后 跟着 一 个 空 字 节 。 这 些 域 均 按照 时 钟 串 行 输出 ， 串 行 输出 管 脚 的 最 高 频率 为 
70MHz。 假 设 CPU 不 停止 SPI 时 钟 ， 该 器 件 将 在 随后 的 8 个 周期 里 顺序 输出 存储 在 该 地 址 上 的 字 节 
给 CPU 。 
傅 定 一 个 读 字 节 的 操作 总 共 需 要 多 少时 钟 周期 ， 并 确定 从 该 器 件 上 读 一 个 字 节 的 最 小 时 间 长 度 。 简 
单 计算 -一 下 问题 6. 14 中 AT29LV512 器 件 上 的 读 操 作 要 快 多 少 倍 ? 
注意 : 值得 提醒 的 是 这 样 的 比较 不 是 很 公平 。 首 先 ， 当 读 一 连 串 存储 单元 时 两 个 器 件 都 会 更 有 效 ，SPI 器 件 尤 其 
如 此 ,， 其 次 ，SPI 器 件 还 有 更 为 快速 的 读 命令 ， 而 我 们 没有 用 到 ， 该 命令 为 0x03 而 不 是 0x0B，0x03 命令 不 
需要 在 地 址 最 后 一 位 输出 之 后 插入 空 字 节 ， 不 过 该 模式 只 适用 于 最 高 工作 频率 为 33MHz 的 情况 。 
6.17 将 下 列 应 用 〈(a~e) 与 适当 的 总 线 技术 相 匹 配 ， 主 要 考虑 带宽 、 延 时 、 功 耗 、 内 外 计算 机 通信 、 连 
线 数 、 抗 噪声 干扰 、 距 离 等 。 
a. 一 个 禁止 用 户 开关 滑动 窗户 的 器 件 连接 到 一 个 让 人 式 计算 机 上 ， 且 在 窗户 被 打开 时 有 一 个 LED 报警 。 
b. 嵌入 式 计 算 机 内 置 有 图 形 输出 器 件 ， 它 完成 从 CPU 以 1. 8Gbits 的 速率 输出 视频 数据 。 
c. 工业 自动 化 计算 机 需要 将 位 于 500m 外 的 传感器 穿 过 充满 噪声 的 电气 工厂 连接 到 计算 机 (此 处 由 
于 干扰 无 线 设备 不 能 工作 ) 。 传 感 器 以 每 秒 几 十 Kbit 的 速率 返回 温度 数据 。 
d 一 个 FPGA 协 处 理 器 内 置 在 x86 处 理 器 系统 中 以 尽 可 能 快 的 速度 传输 大 量 数据 。 
e. 一 台 小 尺寸 嵌 人 式 工业 PC 需要 一 个 连接 20 个 模 数 转换 器 (ADC) 的 外 设 卡 ， 总 的 数据 速率 为 
6MiB/s。 
针对 这 五 个 应 用 ， 有 五 个 总 线 技术 供 选 择 ， 一 个 应 用 对 应 一 个 技术 。 
® AGP4x 
289 。 USB1.1 
e PC/104 (16 位 ISA) 
。 16x PCle (16 通道 PCI 增强 版 ) 
e FIA422 
6.18 哪 五 个 时 间 人 参数 能 够 描述 实时 系统 中 一 个 任务 的 时 序 特 征 ? 
6.19 给 出 当 在 能 人 式 CPU 中 断 发 生 时 一 般 的 操作 序列 。 
6.20 描述 像 ARM 这 样 的 只 有 单个 通用 中 断 信 号 (IRQ) 的 处 理 器 若 要 实现 中 断 共 享 所 必需 的 硬件 。 注 意 
290 这 可 能 增加 中 断 服务 例 程 的 额外 开销 。 
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7.1 概述 


几 十 年 来 计算 机 体系 结构 一 直 作 为 一 门 学 术 研究 学 科 ， 教 育 了 几 代 工程 专业 学 生 ， 计 算 机 
体系 结构 随 着 硬件 发 展 而 更 新 ， 但 它 作为 课程 教授 给 学 生 时 往往 落后 十 几 年 。 在 大 型 计算 机 时 
代课 程 滞后 十 几 年 并 没有 什么 ， 而 在 个 人 计算 机 时 代 如 此 滞后 的 时 间 就 带 来 了 一 些 问题 。 

我 还 记得 在 学 校 时 学 习 的 是 8086 、6502 和 Z80， 而 当时 我 已 使 用 第 一 代 ARM 台式 机 (在 那 
个 年 代 它 是 非常 快 的 ) 。 奇 怪 的 是 ， 这 种 课程 滞后 很 多 年 来 依然 如 故 ， 这 表现 为 准备 到 符 人 式 系 
统 或 消费 电子 界 工作 的 学 生 ， 所 接受 的 教育 却 是 更 适合 大 型 计算 机 领域 的 。 

本 书 的 目的 有 所 不 同 对 大 型 机 相关 技术 只 是 简要 概述 ， 而 对 租 入 式 系 统 工程 师 感 兴趣 
的 技术 进行 深入 介绍 。 把 重点 放 在 实用 性 上 上， 鼓励 读者 将 学 到 的 知识 应 用 于 实际 。 

截至 目前 ， 本 书 所 讲 内 容 还 属于 基础 和 理论 方面 的 。 而 从 本 章 开始 ， 我 们 进入 到 实践 部 分 ， 
开始 探索 谋 人 式 系统 的 现实 世界 。 我 们 分 析 为 了 使 现实 中 的 府 人 式 计算 机 工作 需要 做 什么 ， 因 
此 要 跨越 嵌 人 式 计算 机 体系 结构 的 理论 和 现实 之 间 的 鸿沟 。 


7.2 微 处 理 器 不 只 是 核 

一 种 在 本 书写 作 时 期 (大 约 5 年 前 ) 最 为 流行 的 微 处 理 器 是 我 们 前 面 提 到 过 的 三 星 生产 的 
基于 ARM 的 S3C2410。 让 我 们 来 看 一 下 这 个 小 小 的 器 件 ， 了 解 一 下 它 的 特性 : 

e 1.8V/2.0V 的 ARM9 处 理 器 核 ， 最 高 工作 频率 为 200MHz 
16KiB 指令 缓存 和 16KiB 数据 缓存 





。 内 部 MMU (内 存 管理 单元 ) 

。 用 于 外 部 SDRAM (同步 动态 随机 存 取 存储 器 ) 的 存储 控制 器 

。 彩色 LCD (液晶 显示 ) 控制 器 

。 带 有 外 部 请 求 管 脚 的 4 路 DMA (直接 存储 器 存 取 ) 机 制 

。 3 路 UART《〈 通 用 异步 收发 器 ) ， 支 持 TDA1.0，16 字 节 发 送 缓存 和 16 字 节 接收 缓存 
。 2 路 SPI ( 串 行 外 部 设备 接口 ) 

。 1 路 多 主 IC (内 置 集成 电路 ) 总 线 驱动 器 和 控制 器 

。 SD (安全 数位 卡 ) 和 MMC (多 媒体 卡 ) 接口 

。 双 端 口 USB (通用 串 行 总 线 ) 主机 加 上 单 端口 USB 器 件 (1. 1 版 本 ) 
。 4 通道 PWM (脉冲 宽度 调制 ) 时 钟 

。 内 部 时 钟 

。 看 门 狗 定时 器 

。 117 位 通用 WO (输入 /输出 ) 端口 

。 24 路 外 部 中 断 源 

。 功 耗 控制 ,包括 常态 、 慢 速 态 、 空 闲 态 和 电源 关闭 态 

。 8 路 10 位 ADC ( 模 数 转换 ) 和 触摸 屏 接口 

。 实时 钟表 ， 带 有 日 历 功能 

。 片上 时 钟 产生 器 
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S3C2410 是 一 款 功 能 很 丰富 的 器 件 ， 适 用 于 髋 入 式 系统 ， 因 此 至 今 为 止 一 直 被 工业 界 开发 者 
使 用 。 正 如 我 们 在 6. 1 节 所 见 ， 这 种 芯片 有 时 称 为 片上 系统 (SoC)° 处 理 器 ， 其 特征 是 包含 许多 
外 设 单元 。 处 于 系统 中 心 的 核 是 ARM 处 理 器 ， 其 他 ARM9 系统 也 是 如 此 。 

虽然 三 星 没有 给 出 有 关 S3C2410 中 各 个 单元 的 尺寸 以 及 它们 在 芯片 中 的 布局 等 细节 ， 我 们 
还 是 可 以 估计 出 其 中 缓存 所 占 的 芯片 面积 最 大 。 占 据 芯 片面 积 仅 次 于 缓存 的 是 中 央 处 理 单元 
(CPU) 核 。 其 他 较 大 的 单元 是 MMU 、SDRAM 存储 控制 器 和 ADC。 

在 早期 集成 电路 中 ，CPU 是 一 块 单独 的 芯片 ， 集 成 了 许多 以 前 离散 分 布 的 单元 。 随 着 时 间 
的 推移 ， 越 来 越 多 的 功能 被 集成 到 这 样 的 器 件 中 。 对 于 艇 入 式 系统 而 言 ， 半 导体 厂商 已 经 意识 到 
设计 者 喜欢 尽 可 能 少 地 使 用 单独 的 器 件 ， 因 此 片上 系统 提供 了 许多 功能 。 在 任何 一 个 构 入 式 系 
统 设计 中 ， 并 不 会 用 到 所 有 的 功能 ， 但 至 少 会 需要 其 中 一 部 分 。 使 用 这 种 高 集成 度 的 片上 系统 意 
味 着 具有 以 下 设计 特点 : 

1. 降低 芯片 门 数 就 会 降低 面积 ， 因 此 通常 也 会 降低 产品 成 本 。 

2. 当 挑 选 一 款 SoC 时 ， 设 计 者 首先 要 列 出 需要 的 功能 ， 然 后 挑选 与 此 尽量 匹配 的 器 件 。 没 
有 包含 在 该 芯片 中 的 功能 可 以 通过 外 接 方法 实现 。 

3. 一 些 硬件 功能 可 以 通过 软件 有 效 实 现 ， 这 时 设计 的 问题 是 “如 何 使 用 片上 外 设 ”， 而 不 是 
“如 何 用 硬件 实现 这 个 功能 ”。 

4. 有 时 ， 有 限 的 片上 功能 可 能 会 制约 产品 的 功能 ， 而 改变 外 部 实现 的 功能 要 比 改 变 片 内 实 
现 来 得 简单 。 

5. 设计 者 现在 不 得 不 通读 超过 1000 页 的 CPU 数据 手册 ， 而 关键 细节 很 有 可 能 藏 在 第 991 页 
的 脚注 中 。 

6. 一 些 功能 不 能 共存 。 例 如 ， 功 能 表 中 说 既 提 供 了 IIC 也 提供 了 UART 支持 ,但 忘记 说 明 在 一 
个 时 刻 只 能 支持 其 中 一 种 功能 ， 原 因 可 能 是 没有 足够 的 管 脚 ， 或 没有 足够 的 内 部 串 行 硬件 支持 。 

主流 处 理 器 倾向 于 将 较 多 的 硅 面 积 用 于 高 速 缓存 而 不 是 CPU 常规 功能 ， 因 为 高 速 缓 存 被 看 
做 是 改进 处 理 器 性 能 的 最 好 方法 。 以 64 位 VIA Isaiah 体系 结构 (又 叫做 VIA Nano) 为 例 ， 这 是 
一 种 近来 出 现 的 x86 兼容 处 理 器 ， 如 图 7-1 所 示 ， 其 中 最 大 部 分 硅 面积 用 于 高 速 缓存 。 其 中 还 包括 一 








nk Pads i 
| PLLs 
a 1L2 Cache 
| Fuses 
| | ES 
{ 
L1-D ， Load/Store/ Bus | oli 
Cache MOB Ee | 
， 1 | 
Retire ， 
scheduter 人 ee Fetch Branch 
FP & SIMD Int & ROB Predict 
| 1 :Translate 
| Crypt : ' Rename 
EE 
a) b) 


图 7-1 VIA Tsaiah 体系 结构 ， 一 个 低 功 耗 x86 型 CPU， 特 别 适合 笔记 本 计算 机 之 类 的 移动 
计算 应 用 ， 图 中 给 出 了 各 器 件 在 硅 片 内 部 的 安排 《本 照片 和 结构 图 由 VIA 公司 提 
供 ) 。a) 芯片 照片 ， 显 示 了 功能 区 域 块 ; b) 芯片 面积 对 应 的 功能 区 域 方 框 图 





四” 较 小 的 SoC 系统 有 时 也 称 为 单 片 微 处 理 器 或 单 片 微 控 制 器 。 
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些 独 立 模 块 ， 分 别 用 于 时 钟 生 成 〈 锁 相 环 ，PLL) 、 高 速 浮 点 (FP) 、SIMD 体系 结构 (该 器 件 支 
持 在 4.7.4 节 讨论 过 的 SSE-3 扩展 指令 ， 因 此 它 与 浮 点 运算 单元 FPU 并 行 排列 ) 。 其 他 有 趣 的 模 
块 还 包括 用 于 加 密 处 理 的 模块 、 用 于 乱 序 执行 的 重 排序 缓冲 器 (ROB) 、 在 据说 长 度 为 十 几 级 的 
流水 线 末端 的 扩展 分 支 预测 与 硬件 回 退 (retirement hardware) 。 还 包括 2 个 64 位 整数 单元 (IU) 
和 3 个 取 数 - 存 数 单元 以 及 存储 重 排序 缓冲 器 (MOB)。 顶 部 和 底部 Pad 用 于 连接 内 部 电路 和 集 
成 电路 封装 焊 点 。 这 个 采用 65nm 工艺 实现 的 器 件 有 64KiB 一 级 缓存 和 1MiB 二 级 缓存 ， 使 用 了 
大 约 9400 万 个 晶体 管 。 对 比 一 下 台式 计算 机 /服务 器 中 的 CPU，AMD 的 四 核 Phenom 有 4.5 亿 个 
晶体 管 ， 它 还 包括 2MiB 三 级 缓存 ， 如 图 7-2 所 示 。 





图 7-2 AMD Phenom™ 四 核 处 理 器 芯片 。 其 中 对 称 的 水 平和 垂直 线 将 芯片 分 成 4 个 核 。 器 件 硕 部 和 底 
部 的 非 对 称 条 是 双 速 率 随 机 存 取 存储 器 接口 和 2MiB 共享 三 级 缓存 。 中 间 垂 直方 向 的 长 方形 
是 用 于 连接 4 个 核 的 总 线 桥接 系统 ， 而 左右 两 侧 的 是 物理 接口 (本 照片 由 AMD 公司 提供 ) 


7. 3 功能 需求 


在 许多 系统 中 ， 有 些 功能 属于 有 则 更 好 ， 而 有 些 是 必需 的 。 确 定 一 个 功能 在 SoC 中 属于 哪 一 
类 取决 于 它 所 面向 的 应 用 领域 。 例 如 ， 一 个 系统 可 能 要 求 串 口 ， 而 另 一 个 系统 则 要 求 SPI。 

正 因为 如 此 ，SoC 厂家 在 定义 什么 是 必需 的 功能 这 一 点 上 不 能 达成 一 致意 见 ， 而 由 此 产生 的 
产品 变化 对 于 我 们 搜寻 适合 戏 人 到 自己 的 设计 中 的 器 件 是 一 件 好 事 。 事 实 上 ， 这 种 情形 也 是 消 
费 者 驱动 的 : 一 个 能 够 卖 出 几 百 万 产品 的 公司 有 能 力 说 服 半 导体 厂家 设计 他 们 所 需 的 芯片 ， 而 
小 的 独立 设计 者 却 很 难 要 求 半 导体 厂家 为 他 们 增加 特定 外 设 。 

然而 ， 有 一 两 种 外 设 被 认为 是 必需 的 ， 且 在 几乎 所 有 的 主流 SoC 处 理 器 中 都 可 以 见 到 。 

1. 复位 电路 〈( 见 7.11.1 节 ) 是 必需 的 ， 用 来 确保 每 一 个 器 件 启动 后 寄存 器 和 状态 处 于 预定 值 。 

2. 时 钟 电路 是 必需 的 ， 用 以 将 全 局 时 钟 分 配 到 一 个 同步 设计 的 各 个 部 分 。 通 常 一 个 锁 相 环 
( Phase-Locked Loop ，PLL) 或 延迟 锁定 环 ( Delay-Locked Loop，DLL) 用 于 调整 外 部 晶振 产生 的 
振荡 以 及 调节 频率 。 

3. VO 驱动 器 连接 外 部 管 脚 ， 提 供 足 够 的 电流 在 连接 外 部 器 件 的 线 上 产生 电压 翻转 ， 同 时 协 
助 防止 片 外 源 器 件 对 IC 内 部 电路 产生 静态 充电 、 短 路 和 电压 尖峰 。 许 多 器 件 带 有 通用 WO 
(GPIO) ， 它 在 方向 、 驱 动 特性 、 阐 值 等 方面 是 可 编程 的 ， 详 见 框 7. 1 中 的 讨论 。 

4. 总 线 连接 器 也 是 与 外 部 连接 的 接口 ， 主 要 用 于 连接 外 部 存储 器 、 外 设 等 。 它 们 通常 以 一 
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组 IO 驱动 器 协同 工作 的 方式 实现 。 

5. 存储 器 本 身 既 可 以 处 于 片上 也 可 以 处 于 片 外 ， 通 常 组 合 使 用 存储 变量 和 堆栈 的 易 失 存储 
器 和 存储 程序 代码 的 非 易 失 存储 器 。 

6., 功 耗 管理 电路 用 来 将 电源 分 派 到 整个 器 件 ， 关 闭 芯片 上 不 工作 的 部 分 等 。 

[295] 7. 调试 电路 ， 例 如 IEEE1149 JTAG， 在 多 数 情况 下 被 认为 是 非常 必需 的 〈 详 见 7.9.3 节 )。 

MSP430 可 配置 管 肢 

类 似 于 许多 为 谋 入 式 系 统 设计 的 处 理 器 ，TI 的 MSP430 系列 具有 很 好 的 LO 管 脚 配 置 能 力 。 下 面 以 该 
系列 中 MSP430F1611 为 例 来 考察 管 脚 的 可 配置 性 。 





Ea PS.S/SMCLK 


安 
i 
~ 
eh 
人 
Ein 
oo 
va 


Rit PS.0/ACLK 







SS 
< 
< 
3 
\ 
En 
个 
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Ps.4/MCLK 
PS.3/UCLK1 
P5.2/SOMI1 
P5.1/SIMOI 
P30/STE] 
P4.7/TBCLK 


P6.6/A6/DAC0 ®® 
P6.7/A7DACLSVSIN 


， P4.6/TB6 
XIN MSP430F1611 (Pp4.5/TBS 
XOUT 上 P4.4/TB4 


Veref+ 
Vref-/Veref- 
Pl1.0/TACLK 
Pl1.1/TAO 
P1.2/TA1| 
P1.3/TA2 
Pl1.4/SMCLK 


P4.3/TB3 
P4.2/TB2 
P4.1/TBI1 
P4.0/TBO 
P3.7/URXDI1 
P3.6/UTXDI 
P3.S/URXD0 





NCLK 


~ 注入 人 半 ， 


P34UTXD0" 苞 





P21/ TA 


该 64 管 脚 封装 器 件 上 除了 电源 、 地 、 参 考 电压 输入 、 外 部 晶振 连 线 和 两 根 JTAG 管 脚 外 ，64 个 管 脚 中 
的 51 个 具有 可 配置 性 ， 每 一 个 复 用 多 个 功能 。 例 如 ， 管 脚 5 用 做 GPIO 6 位 端口 6 (P6.6)， 同 时 用 做 12 位 
ADC 的 输入 信道 6 或 12 位 DAC 的 输出 信道 0， 取 决 于 器 件 使 用 者 在 软件 中 的 设置 。 

296 在 框 7.2 中 我 们 将 了 解 如 何 配置 管 脚 。 
MSP430 管 脚 控制 

框 7.1 给 出 了 TI MSP430F1611 芯片 的 管 脚 布 局 ， 由 此 可 见 单 个 管 脚 可 以 具有 多 种 配置 。 事 实 上 ， 这 些 
管 脚 配置 是 在 软件 中 完成 的 。 下 面 我 们 来 看 一 下 该 机 制 是 如 何 工作 的 。 

MSP430 有 若干 管 脚 控制 寄存 器 ， 管 脚 8 位 一 组 ， 例 如 PL.0 ~ PL.7 构成 端 只 1，P2.0 ~ P2.7 构成 端口 
2， 以 此 类 推 。 每 个 端口 的 8 个 LO 管 脚 可 以 分 别 配 置 方向 ， 亦 邑 读 入 或 写 出 。 在 许多 情况 下 ， 它 们 还 可 以 
用 做 中 断 源 。 让 我 们 来 看 一 下 对 应 端口 2 的 寄存 器 组 。 

寄存 器 PZ2DIR 是 一 个 8 位 方向 寄存 器 ， 寄 存 器 中 的 一 位 控制 着 对 应 的 管 脚 为 输入 或 输出 管 脚 。 将 0 写 
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入 某 一 位 导致 其 对 应 管 脚 为 输入 管 脚 ， 而 将 1 写 入 某 -- 位 导致 其 对 应 管 脚 为 输出 管 脚 。 例 如 将 0x83 写 入 寄 
存 器 使 得 P2.7、P2. 1 和 P2.0 为 输出 管 脚 而 其 他 为 输入 管 脚 。 

寄存 器 P2IN 是 一 个 8 位 寄存 器 ， 每 一 位 代表 对 应 管 脚 上 的 输入 值 。 因 此 ， 如 果 读 该 寄存 器 的 返回 值 为 
0x09， 则 意味 着 P2.3 和 P2.0 上 的 电压 为 高 ， 其 余 管 脚 电压 为 低 。 注 意 ， 如 果 我 们 已 将 P2.0 配置 为 输出 管 
脚 、P2. 3 配置 为 输入 管 脚 ， 则 我 们 可 知 P2. 0 上 输出 逻辑 高 ， 且 其 他 器 件 输入 逻辑 高 电压 给 P2. 3。 

寄存 器 P2O0UT 是 另 一 个 8 位 寄存 器 ， 用 以 确定 每 一 个 配置 为 输出 的 管 脚 的 输出 电压 。 配 置 为 输入 的 管 
脚 忽略 写 入 该 寄存 器 的 值 。 

还 剩 下 一 项 需要 确定 的 配置 ， 即 是 将 这 些 管 脚 作为 GPIO 还 是 将 它们 用 做 其 他 指定 功能 。 为 此 ,寄存 
器 P2SFL 被 用 来 选 通 GPIO 端口 寄存 器 和 外 设 模块 。 当 逻辑 低 写 入 P2SEL 时 意味 着 管 脚 连接 到 GPIO 寄存 
器 ， 而 逻辑 高 意味 着 选择 外 设 功能 到 管 脚 。 例 如 将 0x81l 写 入 P2SEL 将 实现 下 列 选 通 : 





管 脚 20 21 22 23 24 25 26 27 
功能 ACLK P2.1 P2.2 P2.3 P2.4 P2.5 P2.6 TAO 





有 两 件 事 需 要 注意 。 第 一 ， 外 设 确切 的 功能 由 外 设 模块 决定 ， 其 具体 配置 方法 应 在 该 设备 手册 中 说 明 。 
一 些 管 脚 有 三 种 定义 ， 其 一 通常 是 GPIO 端口 ， 男 外 两 种 是 外 设 模 块 ( 管 脚 选 通 钦 辑 不 能 完成 对 这 两 种 外 
设 模块 之 一 的 选择 ， 需 要 借助 于 外 设 模块 本 身 的 配置 ) 。 

第 二 ， 若 管 脚 被 配置 成 与 外 设 连 接 ， 则 管 脚 方 向 必须 通过 写 P2DIR 正确 设置 。 一 些 处 理 器 可 以 自动 完 
成 这 种 相关 设置 ， 但 MSP430 必须 通过 程序 来 实现 。 例 如 ， 如 果 通 过 写 P2SFL 将 某 一 管 脚 定 义 为 串口 输出 ， 
则 P2DIR 的 相应 位 就 应 当 为 逻辑 ] ， 和 否则 ， 将 不 会 有 输出 产生 。 

多 数 器 件 还 包含 一 个 或 多 个 内 部 UART (通用 异步 收发 器 ) 或 USART (通用 同步 /异步 收发 
器 ) ， 一 个 内 部 实时 时 钟 模 块 (RITC) ， 几 个 时 间 计 数 器 ， 以 及 内 部 高 速 缓存 等 。 

比较 面向 不 同市 场 设 计 的 CPU 是 非常 有 趣 的 事 ， 如 表 7-1 所 示 ， 所 列 三 个 广泛 用 于 让 人 式 
系统 的 器 件 分 别 属 于 三 类 处 理 器 。 单 芯片 微 处 理 器 ，TI 的 MSP430F1612， 功 耗 非常 低 (在 最 低 
用 电 模 式 下 芯片 可 以 基于 两 个 柠檬 产生 的 电力 工作 ) ， 且 内 其 了 多 种 低层 次 外 设 。 其 设计 目标 是 
使 选择 它 的 设计 者 可 以 获得 单 芯片 解决 方案 ， 因 此 它 没有 外 部 存储 器 接口 。 与 此 相反 ， 三 星 
S3C2410 是 一 种 基于 ARM9 的 片上 系统 ， 基 有 丰富 的 功能 ， 足 以 支持 个 人 数字 助手 (PDA) 、 智 
能 手机 等 应 用 。 它 不 仅 有 SDRAM 接口 ， 在 并 行 总 线 (参见 6.2 节 ) 上 可 连接 扩展 静态 随机 在 取 
存储 器 (SRAM) 、 只 读 存储 器 (ROM) 和 Flash ， 还 提供 了 多 种 外 设 接口 一 一 尤其 是 通信 和 和 内 部 
连接 外 设 。 最 后 一 个 是 VIA Nano ， 我 们 在 7. 2 节 中 介绍 过 。 某 种 意义 上 ， 尽 管 它 为 提高 功 耗 效率 
做 了 重新 设计 ， 且 比 典型 的 个 人 计算 机 处 理 器 尺寸 小 ,但 它 还 是 一 种 标准 个 人 计算 机 处 理 器 。 对 
于 要 求 x86 结构 处 理 器 的 租 入 式 系统 ， 它 可 作为 一 个 候选 。 该 器 件 主 要 关注 于 计算 能 力 ， 强 调 低 
功 耗 约束 下 的 高 性 能 。VIA Nano 有 很 多 另外 两 款 处 理 器 没有 的 外 设 ， 当 然 ， 那 两 款 处 理 器 也 可 
以 通过 附加 芯片 来 提供 这 些 外 设 。 
表 7-1 从 三 类 微 处 理 器 中 选择 示例 以 比较 其 内 置 特性 : 单 芯片 微 控制 器 、 片 上 系统 微 处 理 器 和 个 人 计算 

机 CPU。 其 中 ，TI 的 MSP430 系列 在 写 这 本 书 的 时 候 已 有 171 个 变种 ， 每 个 都 有 特殊 的 性 质 和 能 


力 一 一 系列 中 器 件 最 高 频率 可 达 25MHz， 包 含 16KiB RAM 和 256KiB Flash， 以 及 十 分 多 样 化 的 
外 设 配置 。 相 反 ， 三 星 和 VIA 都 只 有 很 少 的 变种 器 件 
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单 芯片 微 处 理 器 SoC CPU 个 人 计算 机 CPU 
TI MSP430F1612 三 星 S3C2410 VIA Nano 

时 钟 速 度 8MHz 266MHz 1. 8GHz 

功 耗 < 1m 允 330mW 5~25W 

封装 64 管 脚 LQEN/P 272 管 脚 FGBA 479 管 脚 BGA 





内 部 缓存 无 16KiB I+16KiB D 128KiB Ll +1MiB 12 
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( 续 ) 

单 芯片 微 处 理 器 SoC CPU 个 人 计算 机 CPU 
TI MSP430F1612 三 星 SC2410 VIA Nano 

内 部 RAM 5KiB 无 无 

内 部 Flash 55KiB 无 无 

内 部 带宽 16 位 32 位 64 位 

外 部 数据 总 线 无 32 位 64 位 

外 部 地 址 总 线 无 27 位 未 知 

存储 支持 无 ROM 到 SDRAM DDR-2 RAM 

ALU 1 1 2 

FPU 不 不 是 

SIMD 不 不 SSE-3 

乘法 器 16 位 32 位 最 高 128 位 

ADC 12 位 8x1l0 位 无 

DAC 2x1l2 位 无 无 

RTC 不 是 不 

PWM 不 4 不 

GPIO 48 管 脚 117 管 脚 无 

USART 2 3 不 

PC 是 是 不 

SPI 2 2 不 

USB 不 2 主 1 设备 不 

看 门 狗 定时 器 是 是 不 

掉 电 检 测 是 不 不 

时 钟 2 1 是 

JTAG 是 是 未 知 


下 面 我 们 将 比较 详细 地 讨论 一 些 CPU 必须 具备 的 功能 ,包括 时 钟 、 功 耗 管理 和 存储 器 。 
之 后 在 7.11 节 ， 我 们 将 了 解 一 下 器 件 复位 机 制 ， 特 别 是 看 门 狗 定 时 器 、 复 位 监测 器 和 掉 电 检 
测 融 。 


7.4 时钟 

在 3.2.4 节 中 我 们 讨论 CPU 控制 时 考虑 了 系统 时 钟 在 控制 微 操作 中 的 重要 作用 。 事 实 上 对 
于 时 钟 重要 性 我 们 强调 得 还 不 够 。 除 了 非常 少见 的 异步 处 理 器 (我 们 将 在 9.4 节 中 介绍 ) 外 ， 
所 有 处 理 器 、 大 多 数 外 设 、 总 线 和 存储 设备 都 是 依赖 时 钟 同步 信号 正确 地 完成 操作 。 

CPU 功能 模块 仅 包 括 组 合 逻 辑 ， 例 如 算术 逻辑 单元 ， 在 它 周围 时 钟 尤 其 重要 。 如 果 时 钟 沿 
控制 ALU 的 输入 ， 则 同一 个 时 钟 沿 不 能 够 用 来 获取 ALU 的 输出 ， 因 为 ALU 需要 一 定 的 时 间 完 成 
其 功能 。 必 须 使 用 后 一 个 时 钟 洛 ， 或 采用 两 相位 时 钟 〈 即 两 个 非 对 称 时 钟 ， 它 们 不 相互 重奏 ， 
且 两 个 沿 之 间 间 隔 大 于 时 钟 系统 中 的 最 大 组 合 逻辑 延 时 ) 。 

实际 当中 通常 采用 一 个 时 钟 ， 但 在 时 钟 波形 的 不 同 沿 上 完成 不 同 功能 。 图 7-3 给 出 了 一 个 例 
子 ， 其 中 ALU 工作 在 不 同 的 时 钟 治 上 。 从 第 一 个 下 降 沿 开始 ， 首 先 ( i ) 驱动 来 自 RO 的 单 总 
线 ， 在 第 一 个 上 升 沿 完成 〈 这) 将 输入 值 锁 存 到 第 一 个 ALU 寄存 器 且 释 放 总 线 驱 动 。 之 后 ， 
(证 ) 和 (iv〉 重复 该 过 程 将 R1 写 人 ALU 的 第 二 个 寄存 器 。( V ) 接收 到 稳定 输入 后 ALU 需要 
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一 定时 间 完 成 计算 。( Wi) 之 后 将 结果 写 人 RO。 

图 7-3 在 图 的 底部 给 出 主 时 钟 信和 号， 频率 为 FR =1/T,。 时 钟 上 升 沿 或 下 降 沿 有 效 时 刻 是 时 
钟 信号 通过 立 值 电压 的 时 候 (如 图 中 虚线 所 示 )。 注 意 时 钟 信号 沿 不 是 完全 垂直 的 ， 即 有 时 钟 上 
升 时 间 和 下 降 时 间 。 事 实 上 ， 在 每 个 周期 时 钟 通过 阐 值 的 时 刻 会 有 一 点 差异 ， 其 原因 来 自 电 品 
声 、 电 路 电容 、 电 感 、 温 度 等 影响 。 该 偏差 称 为 拌 动 (jitter)。 
A (i) We .iv) ALU (vi) 





A 2 (还 》 











图 7-3 不 同 的 门 和 锁 存 器 驱动 ALU 与 CPU 时 钟 单 沿 同步 ， 类 似 于 图 3-3 的 周期 级 时 序 图 。 所 
完成 的 操作 为 RO = RO + R1 ， 分 为 6 个 顺序 阶段 完成 

抖动 也 会 因为 阔 值 电压 的 变化 而 产生 〈 通 常 闵 值 电压 保持 不 变 ， 但 时 钟 电压 会 随时 间 慢 慢 
变化 ) 。 反 过 来 ， 抖 动 会 导致 每 个 周期 的 Tu 值 不 相等 。 显 然 ， 必 须 选 择 能 够 满足 信号 有 足够 时 
间 通 过 ALU 的 时 钟 频率 ， 而 抖动 偶尔 会 引起 时 钟 周期 变 短 ， 从 而 导致 ALU 结果 不 能 按时 准备 
好 ， 以 致 发 生 错 误 行 为 。 

因而 ， 时 钟 集成 十 分 重要 ， 且 大 多 数 系统 时 钟 低 于 可 以 达到 的 最 快 时 钟 周 期 。 这 意味 着 如 果 
有 非常 稳定 的 时 钟 和 供电 电压 ， 系 统 实 际 可 操作 在 快 于 它们 标定 的 时 钟 频率 上 (这 也 是 多 年 来 
个 人 计算 机 中 普遍 使 用 CPU 超频 率 工 作 的 原因 ) 。 


时 钟 生 成 


近来 ， 多 数 CPU 和 SoC 中 的 处 理 器 在 外 部 连接 的 时 钟 晶振 的 基础 上 产生 内 部 时 钟 频率 ， 最 
多 仅 需 要 两 个 很 小 的 外 部 耦合 电容 。 

为 了 产生 内 部 时 钟 ， 这 些 当 代 流 行 的 器 件 中 必须 包含 锁 相 环 电 路 以 根据 原 外 部 时 钟 产 生 内 
部 时 钟 。 通 常 还 包括 内 部 分 频 器 和 乘法 器 硬件 。 例 如 ， 三 星 S3C2410 采用 12MHz 外 部 时 钟 产 生 
266MHz 内 部 时 钟 (事实 上 ， 时 钟 分 频 寄 存 器 允许 在 一 个 特定 外 部 晶振 的 基础 上 产生 多 个 操作 
频率 ) 。 

延迟 锁定 环 技术 与 此 类 似 ， 只 是 灵活 性 较 小 且 精 度 较 低 ， 但 制造 简单 、 成 本 低廉 。 注 意 当 频 
率 适 当时 ， 也 可 以 将 外 部 晶振 信号 直接 输入 到 CPU 中 使 用 。 

当前 一 些 系统 要 求实 时 时 钟 ， 一 般 是 通过 单独 的 32. 768kHz 外 部 晶振 〈 以 及 独立 的 PLL) 提 
供 的 。32. 768kHz 晶振 器 件 很 便宜 ， 而 且 很 小 。 该 晶振 常用 于 钟表 ， 因 为 该 信号 经 分 频 2 次 后 
可 以 产生 ! 秒 的 定时 脉冲 ， 用 来 驱动 钟表 和 日 历 电 路 ( 记 作 1pps 或 每 秒 一 个 脉冲 ) 。 

虽然 可 以 使 用 很 多 精准 晶振 ， 例 如 用 于 射频 (RF) 电路 的 恒温 晶振 (OCXO) ， 但 大 多 数 微 
处 理 器 使 用 标准 石英 晶振 或 陶瓷 谐振 器 。 它 们 的 准确 率 大 约 100ppm (每 百 万 中 的 份 数 ) ， 等 价 
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于 0.0001% ， 相 当 于 最 坏 情况 下 每 年 小 于 1 小 时 的 误差 。 稍 微 贵 些 的 晶振 很 容易 就 可 以 达到 
10ppm 精度 ， 而 OCXO 可 以 达到 的 精度 在 1ppm 分 之 几 的 范围 。 


7.5 时钟 与 功 耗 


当 阅 读 CPU 数据 手册 时 ， 经 常 可 以 发 现时 钟 和 功 耗 控制 在 同一 章 介绍 的 情况 ， 很 多 情况 下 ， 


系统 控制 寄存 器 也 在 其 中 。 这 样 做 的 原因 在 于 时 钟 
是 导致 CPU 内 部 功率 消耗 最 直接 的 因素 。 

让 我 们 花 点 时 间 来 回顾 一 下 现代 CMOS (Com- 
plementary Metal Oxide Semiconductor， 互 补 金 属 氧 化 
物 半导体 ) 中 的 功 耗 原理 。 我 们 暂时 不 深入 研究 半 
导体 理论 ， 先 考 患 一 个 简单 的 门 ， 比 如 说 如 图 7-4 
所 示 的 与 非 门 (NAND) 结构 。CMOS 这 一 名 称 中 的 
“互补 ”含义 就 是 因为 该 结构 的 输出 可 以 通过 晶体 
管 连 接 到 Vss (负极 电压 ) 上 ， 也 可 以 连接 到 Vdd 
(电源 电压 ) 上 。 

在 理想 情况 下 ，CMOS 系统 连接 到 Vss 或 者 Vdd 
上 的 输出 是 没有 电阻 的 ， 但 是 我 们 知道 在 现实 世界 
中 0 电阻 是 不 存在 的 ， 导 线 上 存在 电阻 ,或 者 存在 
漏 源 电阻 等 。 这 些 电阻 所 导致 的 结果 就 是 限制 了 从 
Vss 或 者 Vdd 中 流出 或 流入 的 电流 ， 因 而 也 要 花费 
些 时 间 来 充满 输出 电容 。 当 门 从 一 个 状态 跳 到 另外 
一 个 状态 ， 电 流 就 会 被 激发 ， 也 就 是 要 充满 输出 电 
容 或 者 释放 输出 电容 。 随 着 充 放 电流 的 改变 ， 电容 
电压 也 随 着 升 高 或 者 降低 。 这 可 以 从 图 7-5 中 很 清 
晰 地 看 到 ， 其 中 CMOS 门 用 一 个 理想 开关 来 替代 。 
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图 7-4 利用 CMOS 门 来 设计 一 个 与 非 电路 ， 
可 以 看 到 MOS 晶体 管 直接 与 源 电压 
和 漏电 压 相连 。 灰 色 的 输出 电容 器 
用 来 反映 NAND 输出 的 电容 负载 


最 重要 的 是 图 底部 的 逻辑 值 输出 : 在 一 个 数字 电路 中 ， 从 一 个 事件 发 生 【〔 比如 说 开关 位 置 疏 变 ) 
到 输出 逻辑 值 稳定 的 时 间 ， 叫 做 传输 延迟 ， 这 个 概念 我 们 曾 在 2. 4. 2 节 讨 论 进位 延迟 加 法 器 时 讨 























论 过 。 
Ydd Vout 
VN 
] 5 
om Vout Vol 
二 输出 电容 : 
Sw: sw:!] to 0 
— i logic 1 
Vss Vss indeterminate 站 和 记 
logic 0 
图 7-5 左边 所 冰 为 电容 里 的 切换 电压 ， 它 需要 一 定 的 时 间 来 充电 和 放电 ， 如 图 中 曲线 所 


天， 电容 由 压 会 随 着 开关 位 置 的 改变 而 发 生变 化 。 注 意 逻 辑 电 压 的 Vlo 和 Vhi 阐 
值 ， 图 中 的 底部 折线 显示 了 电容 电压 的 逻辑 值 随时 间 的 变化 
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事实 情况 远 比 我 们 所 说 的 复杂 ， 在 所 有 的 硅 门 中 均 有 寄生 电容 存在 ， 在 各 种 导线 及 门 连接 
中 也 有 寄生 电阻 存在 ， 甚 至 存在 寄生 电感 。 这 样 ， 就 使 得 我 们 前 面 所 讨论 的 负载 电容 问题 更 为 
严重 。 

理解 了 系统 中 电容 的 基本 问题 后 ， 我 们 要 注意 到 两 个 重要 的 概念 : 

。 传输 延迟 ， 是 指 通过 小 电阻 的 导线 和 导电 硅 片 对 电容 进行 充 放电 时 所 花费 的 时 间 。 

。 门 切换 所 产生 的 电流 ， 是 由 于 在 充 放 电 时 必须 有 电流 经 过 电容 器 。 


7. 5. 1 ”传输 延迟 


为 了 降低 传输 延迟 ， 硅 片 设计 者 可 以 使 用 多 种 方法 : 可 以 降低 电容 (通过 设计 更 小 的 门 ， 
因为 电容 与 硅 片 上 门 结构 的 面积 成 正比 ); 可 以 降低 立 值 电压 ， 这 样 可 以 让 电压 更 快 地 达到 立 
值 ， 从 而 提供 更 多 的 电流 让 电容 充 放 电 更 加 迅速 。 硅 片上 门 的 尺寸 正在 逐年 递减 ， 也 许 很 快 就 会 
接近 其 物理 极限 ， 但 更 小 的 器 件 尺 十 意味 着 更 高 的 电阻 ， 进 而 限制 了 电流 ， 所 以 要 更 换 材料 以 设 
计 更 低 电 阻 的 半导体 。 降 低 立 值 电 压 已 经 被 目前 的 IC 厂商 所 采用 ， 从 5V 到 3.3V、1.8V、1.2V 
甚至 更 小 。 但 是 ， 降 低 阐 值 会 使 得 硅 片 更 容易 受到 电子 噪声 的 干扰 。 

从 根本 上 说 ,IC 设计 者 会 通过 各 种 方法 来 改进 他 们 的 电路 系统 ， 比 如 通过 各 种 可 行 的 办 
法 来 仔细 平衡 取舍 从 而 降低 传输 延迟 。 从 20 世纪 50 年 代 到 2007 年 ， 通 过 采取 这 些 设 计 方 法 ， 
芯片 时 钟 频率 逐年 增高 。 然 而 ， 提 升 频率 所 带 来 的 困难 已 经 迫使 大 家 的 重心 从 高 频率 转向 高 
并 行 化 ， 也 就 是 说 ， 如 果 你 的 频率 不 够 快 ， 那么 可 以 尝试 更 多 的 并 行 来 达到 高 频率 的 效果 
(5.8.2 节 )。 

许多 用 于 提升 处 理 器 性 能 的 技术 已 经 使 其 芯片 内 部 的 电流 升 高 (将 在 7.5.2 节 讨 论 )， 并且 
这 一 现象 在 芯片 特征 尺寸 逐渐 减 小 的 面积 有 限 的 硅 片上 更 为 明显 。 由 于 电流 是 通过 寄生 电阻 传 
输 ， 这 样 会 在 传输 过 程 中 产生 热能 。 所 产生 的 电阻 热能 耗 散 和 电流 的 平方 乘 以 电阻 的 结果 成 正 
比 〈 由 于 电流 和 电压 成 正比 ， 因 此 这 也 是 为 什么 厂商 热衷 于 降低 供电 电压 的 原因 ， 这 样 可 以 降 
低 电流 ， 因 而 可 以 降低 功 耗 )。 不 幸 的 是 ， 电 阻 与 面积 成 反比 ， 由 于 特征 尺寸 降低 导致 面积 减 
小 ， 所 以 电阻 也 会 随 之 升 高 。 这 是 一 个 在 面积 设计 上 进行 折 中 的 重要 参考 。 

总 的 来 说 ， 电 阻 功 耗 在 增加 ， 另 外 随 着 时 钟 频率 提高 ， 门 的 开关 更 加 频繁 ， 因 而 带 来 的 功 耗 
也 更 多 ， 最 终 会 导致 更 大 的 功 耗损 失 。 这 也 意味 着 用 于 门 开 关 而 引起 热量 耗 散 的 时 间 变 短 ， 致 使 
硅 片 的 温度 自然 升 高 。 对 于 实现 CPU 的 硅 来 讲 ，125% 甚至 更 高 的 温度 是 很 常见 的 。 

在 额定 电压 下 ， 更 小 的 特征 尺寸 会 产生 出 更 多 的 热量 ， 意 味 着 减 小 IC 封装 的 尺寸 会 让 散热 
更 加 困难 。 这 样 ， 风 扇 、 散 热 器 、 导 热管 等 对 于 CPU 来 讲 就 成 为 必需 的 设备 。 

下 面 ， 我 们 不 考虑 风扇 和 散热 器 ， 我 们 将 关注 一 些 在 计算 机 中 减 小 能 量 消 耗 的 方法 ， 特 别 是 
对 于 电池 能 量 供给 有 限 的 散 入 式 系统 。 


7. 5.2 电流 相关 问题 


在 CMOS 门 电路 中 电阻 会 消耗 一 些 能 量 (即便 是 门 处 于 空闲 状态 ， 也 会 有 微弱 的 电流 经 过 
电阻 并 消耗 能 量 ) ， 但 是 这 与 门 开 关 过 程 中 所 消耗 的 能 量 相 比 相 形 见 绸 。 

驱动 单个 MOS 晶体 管 开关 的 瞬时 电流 通常 是 由 供电 电路 通过 在 印 制 电路 板 (PCB) 上 的 一 
个 电源 层 或 者 电源 线 来 提供 。 切 换 至 地 面 (0 电压 ) 的 电流 通常 为 PCB 上 的 GND 层 所 吸收 。 不 
幸 的 是 ， 电 源 线 、 电 源 层 和 GND 层 均 有 很 小 的 电阻 。 当 一 个 由 门 开 关 所 引起 的 很 短 但 比较 大 的 
电流 脉冲 经 过 这 些 电阻 时 ， 就 会 产生 一 个 补偿 压 降 。 

实际 中 ， 有 几 十 万 个 门 ， 而 且 是 在 同一 时 刻 进行 开关 转换 ， 所 有 了 瞬时 电流 会 累加 在 一 起 。 一 
个 好 的 示波器 ， 只 需要 把 示波器 接 到 设备 的 电源 输出 接口 和 接 人 引 脚 上 ， 就 可 以 很 容易 地 直接 
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检测 到 发 生 在 一 个 系统 时 钟 过 程 中 的 这 个 压 降 。 好 的 电路 设计 实 研 是 在 芯片 的 电源 和 地 线 引 
脚 劳 边 设计 一 个 劳 路 电容 。 这 种 设计 的 作用 是 耦合 电源 的 高 频 噪声 。 这 种 设计 还 可 以 用 做 电源 
储蓄 库 ， 在 需要 和 系统 时 钟 同步 时 释放 一 个 很 短 的 电流 脉冲 。 

门 开 关 所 产生 的 电流 可 以 非常 大 ， 对 于 一 个 x86 结构 的 设备 来 说 ， 甚 至 达到 几 百 安培 ， 但 是 
仅 会 持续 几 个 纳 秒 。 另 外 一 个 问题 就 是 由 此 所 引发 的 电磁 干扰 (EMI，6. 6.3 节 中 有 简单 介绍 )， 
任何 时 候 只 要 有 电子 移动 ， 便 会 有 由 此 引发 的 相应 的 移动 电场 ， 而 且 事 实 上 ， 包含 电流 脉冲 的 电 
路 也 会 像 一 个 天 线 一 样 同 步 地 辐射 噪声 ， 或 者 接收 噪声 。 


7.5.3 时 钟 问题 解决 方法 


除非 降低 开关 频率 、 系 统 电压 或 者 改变 门 的 设计 ， 和 否则 电流 问题 是 不 会 从 根本 上 改变 的 ， 尽 
管 像 旁 路 电容 和 储蓄 电容 这 种 技术 可 以 减轻 这 种 问题 。 

然而 ， 我 们 可 以 考虑 一 些 方法 来 解决 时 钟 所 引起 的 EMI 问题 。 第 一 种 方法 就 是 引入 多 个 时 
钟 ， 每 个 时 钟 之 间 有 轻微 的 相位 差 。 如 果 有 四 个 不 同 相 位 的 时 钟 ， 并 且 将 一 个 电路 分 为 相应 的 四 
个 部 分 ， 通 过 这 四 个 不 同时 钟 进行 控制 ， 这 样 电路 的 峰值 电流 会 降 到 原来 的 四 分 之 一 。 

维持 一 个 稳定 的 电流 可 以 极 大 减 小 电磁 干扰 ， 因 为 电磁 辐射 跟 电压 变化 有 很 大 关系 ， 也 就 
是 说 我 们 如 果 采 用 直流 电源 ,那么 所 有 的 EMI 问题 都 能 解决 。 

另外 一 种 方法 就 是 扩 频 时 钟 。 本 质 上 讲 ， 这 种 方法 是 通过 利用 一 些 离散 的 步 又 来 周期 地 或 
者 随机 地 改变 时 钟 频率 ， 这 样 能 量 辐射 可 以 分 散 到 几 个 不 同 的 时 钟 频 段 上 。 还 可 以 故意 引入 一 
些 振动 的 波形 信号 ， 来 防止 时 钟 上 升 沿 或 下 降 沿 过 于 齐整 。 

由 电源 或 者 信号 线 所 产生 的 EMI 还 可 以 通过 并 行 运行 的 一 个 等 量 但 电流 方向 相反 的 信号 线 
抵消 。 这 被 称 为 均衡 电路 ， 并 且 通 常用 于 LVDS 中 以 降低 EMI。 


7.5.4 低 电压 设计 


如 果 一 个 CPU 的 能 量 消耗 主要 和 其 时 钟 频率 有 关 ， 那 么 一 个 降低 功 耗 的 很 好 的 办 法 就 是 让 
时 钟 频率 慢 下 来 。 在 宜人 式 系统 中 ， 这 种 方法 是 通过 对 时 钟 缩放 寄存 器 写 人 控制 信息 来 实现 的 ， 
这 种 寄存 器 可 以 在 很 多 微 控 制 器 和 SoC 处 理 器 中 见 到 。 在 某 些 的 时 间 段 内 ， 处 理 器 可 能 会 满 负 荷 
运行 ， 而 在 其 他 时 间 段 可 能 会 处 于 空闲 状态 。 峰 值 CPU 时 钟 速度 应 该 与 处 理 器 的 峰值 工作 负载 
相 匹配 ， 不 需要 在 所 有 的 时 刻 都 以 峰值 速度 运行 。 

在 实时 系统 中 ， 一 个 简单 的 控制 时 钟 缩放 的 方法 就 是 在 众多 的 运行 任务 中 指定 一 个 特殊 的 、 
运行 在 后 台 的 任务 ， 该 任务 拥有 最 低 的 优先 级 。 在 后 台 运 行 该 任务 会 在 一 个 确定 的 时 间 段 内 检 
测 到 它 自 己 占 用 了 多 少 CPU 时 间 ， 如 果 占 用 时 间 超 过 基 个 时 间 段 阐 值 ， 说 明 系 统 在 大 部 分 时 间 
内 处 于 空闲 状态 ， 因 而 可 以 降低 时 钟 频率 。 而 当 该 后 台 任务 占用 的 CPU 时 间 近 乎 为 0 时 ， 则 说 
明 系 统 在 满 负 荷 运行 ， 这 样 时 钟 频率 应 该 升 高 。 

大 部 分 的 主流 CPU 生产 厂商 ,其 至 x86 级 处 理 器 设计 者 目前 也 是 采用 这 种 办 法 ， 这 样 可 以 
延长 笔记 本 计算 机 的 电池 寿命 。 

另外 一 种 减少 功 耗 开销 的 办 法 更 加 简单 ， 关 掉 没 有 在 使 用 的 部 分 。 令 人 惊奇 的 是 ， 这 个 想法 
并 没有 立即 被 IC 设计 者 所 接受 ， 但 是 目前 大 部 分 嵌 人 式 处 理 器 设计 中 包含 功 耗 控制 寄存 器 ， 这 
样 可 以 用 来 关 掉 空闲 的 电路 模块 ， 从 而 降低 功 耗 。 当 真正 应 用 这 个 技术 时 ， 大 部 分 程序 员 可 以 简 
单 地 在 程序 初始 化 阶段 启用 某 些 模块 或 者 禁止 某 些 模 块 。 不 过 ， 更 为 常见 的 做 法 是 在 运行 时 动 
态 地 控制 这 些 模 块 。 

图 7-6 解释 了 以 上 两 种 方法 ， 其 中 一 个 SoC 处 理 器 的 电流 消耗 被 描绘 为 一 个 程序 执行 过 程 ， 
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该 程序 使 用 了 一 些 片 上 外 设 。 在 程序 执行 的 开始 阶段 ， 静 态 功 耗 控制 通过 关 掉 不 使 用 的 外 设 来 
减少 电流 消耗 而 动态 功 耗 控制 首先 关 掉 所 有 的 外 设 ， 当 外 设 被 调用 时 才 开 启 ， 且 只 在 使 用 阶段 
处 于 开启 状态 。 在 这 几 种 情况 中 ， 图 下 面 的 面积 代表 了 总 共 消 耗 的 能 量 ， 如 果 这 个 系统 是 在 电池 
供电 下 工作 ， 那 么 可 以 反映 出 电池 电量 在 三 种 不 同情 形 下 的 消耗 。 





使 用 


电流 








































































































时 间 
无 功 耗 静态 功 耗 动态 功 耗 
控制 控制 控制 


图 7-6 CPU 内 的 功 耗 控制 示意 图 : 一 个 简单 的 程序 依次 操作 几 个 外 设 〈 分 别 为 ADC、 串 口 、 


PWM ,然后 是 ADC) ， 并 且 外 设 所 消耗 的 电流 量 也 被 记录 下 来 。 其 中 显示 了 三 种 情况 : 
无 功 耗 控制 ， 静 态 切 耗 控制 〈 在 开始 阶段 ， 所 有 其 他 未 在 使 用 的 外 设 都 被 关闭 ) 和 动态 
功 耗 控制 〈《 除 了 在 开始 阶段 肉 认 关闭 外 ， 所 有 设备 只 在 被 使 用 时 才 开启 ) 。 三 种 不 同 颜 
色 的 图 形 分 别 表示 了 三 种 控制 模式 下 的 能 量 消耗 





在 代入 式 系 统 中 ,还 有 很 多 其 他 的 有 用 方法 来 控制 功 耗 ， 比 如 以 下 这 些 : 


没有 必要 让 LED 一 直 亮 着 ， 因 为 人 眼 在 其 关闭 后 依旧 可 以 看 见 残存 的 固体 光 ， 只 需 每 隔 
50ms 打开 1ms 即 可 (只 会 消耗 功率 的 1/50)。 

使 用 时 钟 缩放 和 智能 动态 功 耗 控制 的 组 合 机 制 来 获取 最 低 功 耗 开销 。 

当 等 待 一 个 软件 事件 时 ， 可 以 尝试 寻找 一 个 休眠 方法 ,这 样 可 以 让 处 理 器 进入 一 个 非常 
低 功 耗 的 模式 ， 而 不 是 进入 一 个 性 等 待 循环 状态 ， 在 这 种 状态 下 处 理 器 会 进行 反复 的 
轮 询 。 

即使 轮 询 有 必要 时 ， 也 可 以 考虑 在 可 能 的 时 候 插 和 人 一 个 短暂 的 睡眠 〈 可 以 通过 时 钟 中 断 
来 退出 ) ， 些 时 CPU 处 于 空闲 状态 。 

定点 计算 往往 比 浮 点 计算 更 加 低 功 耗 。 

片上 存储 往往 比 片 外 存储 更 加 低 功 耗 ， 因 此 ， 可 能 的 话 尽 量 使 用 片上 存储 来 存放 经 常 存 
取 的 变量 。 

数据 移动 也 会 产生 功 耗 ， 因 此 ， 最 好 最 大 化 在 数据 结构 上 的 操作 ， 通 过 将 数据 引用 给 操 
作 吗 数 ， 而 不 是 把 整个 数据 复制 过 去 ， 以 此 减少 数据 移动 所 产生 的 功 耗 。 

将 使 用 高 功 耗 器 件 的 操作 集中 在 一 起 。 比 如 ， 在 早期 的 iPod 中 ， 磁 盘 驱 动 消耗 了 大 部 分 
的 电池 电量 ， 所 以 苹果 公司 设计 了 一 个 更 大 的 缓存 系统 ， 使 得 系统 可 以 从 硬盘 中 一 次 读 
人 一 首 或 者 更 多 歌曲 ， 然 后 在 播放 这 些 歌 曲 的 时 候 关 闭 硬盘 。 然 后 ， 几 分 钟 过 后 ， 硬 盘 
重新 开启 为 读 取 下 面 几 首 歌 做 准备 。 这 样 ， 只 需要 对 硬盘 间歇 供电 。 





7.6 存储 
我 们 已 经 在 之 前 的 章节 里 对 存储 进行 过 多 次 讨论 ， 并 对 其 中 一 些 存储 器 件 进行 了 介绍 ， 如 
SDRAM，DDR ( 双 倍 速率 动态 随机 存 取 存 储 器 ) 等 。 现 在 再 让 我 们 一 起 对 这 些 存储 以 及 它们 与 
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计算 机 体系 结构 和 艇 人 式 系统 相关 的 特性 进行 探讨 。 在 我 们 对 ROM 和 RAM 进行 探讨 前 ， 首 先 来 
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回顾 一 下 计算 机 存储 发 展 历史 。 
7.6. 1 早期 的 计算 机 存储 


值得 一 提 的 是 ,在 早期 的 计算 机 中 有 多 个 存储 ， 特 别 是 极 少将 程序 存储 和 变量 存储 混淆 在 
一 起 并 有 不 会 认为 它们 是 同等 的 。 一 直到 冯 “' 诺 依 曼 机 器 出 现 之 后 ， 程 序 和 数据 才 开始 共享 存 
储 空间 。 

一 舱 来 说 ， 最 早期 的 可 编程 计算 机 (正如 第 1 章 里 提 到 的 ) 都 是 通过 导线 进行 硬 编程 
(hard-coded) 或 通过 开关 进行 编程 ， 并 使 用 真空 管 或 延迟 线 ( delay line) 实现 位 级 存储 。 对 这 
种 机 器 进行 重新 编程 很 麻烦 ， 它 需要 每 天 不 停 地 重 置 导线 (或 开关 ) 来 对 系统 进行 编程 ， 这 是 
- 件 耗 时 并 旦 容易 发 生 错 误 的 事情 。 随 后 穿孔 卡片 〈 或 磁带 ) 被 用 来 进行 程序 存储 ， 它 在 纺织 
工业 里 已 经 使 用 了 200 多 年 。 

过 去 的 数据 存储 都 会 使 用 到 延迟 线 ， 有 时 还 伴随 使 用 其 他 一 些 有 趣 的 技术 〈 如 阴极 射线 管 
延迟 线 、 水 银 延迟 线 、 声 波 延迟 线 等 ) 。 它 们 可 以 在 短 时 间 内 保持 位 信息 ， 从 而 让 计算 机 能 够 对 
其 他 数据 进行 操作 ， 效 果 上 相当 于 简单 数字 计算 器 中 的 存储 器 功能 。 

之 后 ， 磁 芯 存 储 器 被 发 明 出 来 ， 它 被 用 于 对 数据 和 程序 进行 存储 。 磁 盘 也 被 用 于 数据 和 程序 
存储 ， 后 来 演化 为 软盘 和 硬盘 两 种 形式 。 

和 其 他 领域 一 样 ， 电 路 集成 到 硅 片 上 带 来 了 存储 技术 的 最 大 发 展 。 在 20 世纪 60 年 代 中 期 产 
生 了 针对 变量 的 可 重 写 存储 器 ， 和 针对 程序 的 只 读 存 储 器 。 然 而 相 比 磁 芯 存 久 器 ， 硅 片 存储 每 位 
的 开销 要 高 得 多 ， 其 结果 是 在 20 世纪 80 年 代 硅 存储 虽然 占据 了 大 部 分 计算 机 市 场 ， 但 是 对 于 大 
数据 量 的 存储 ， 还 是 使 用 硬盘 驱动 器 。 除 了 最 小 型 的 退 入 式 系统 ， 非 硬盘 式 计 算 机 直到 最 近 才 被 
认为 是 可 行 的 。 

然而 ,今天 儿 乎 所 有 的 散 入 式 系 统 都 包含 了 闪存 (Flash)， 并 且 一 些 品牌 的 笔记 本 电脑 也 开 
始 使 用 固态 存储 : 理论 上 说 这 些 存储 器 功 耗 低 ， 不 会 受 物理 撞击 影响 ， 比 硬盘 式 计算 机 要 可 靠 。 

目前 对 于 程序 存储 和 数据 存储 不 加 任何 区 别 ， 本 章 后 面 讨 论 的 存储 器 都 可 以 用 来 对 程序 和 
数据 进行 存储 。 然 而 ,不同 的 存储 器 与 不 同类 型 数据 的 访问 特征 相 匹配 ， 这 点 我 们 将 在 稍 后 进行 


讨 论 ob 
7. 6.2 只 读 存储 器 


只 读 存储 器 (Read-Only Memory，ROM) 并 不 是 指 一 种 技术 ， 而 是 一 种 存 取 方式 : 存储 在 
ROM 中 的 数据 只 能 被 计算 机 读 取 而 不 能 被 改写 。 这 意味 着 这 种 数据 是 稳定 不 变 的 ， 这 种 特征 
很 适合 程序 代码 ， 也 适合 需要 保持 不 变 的 数据 (如 MP3 播放 器 中 的 数字 滤波 系数 和 开机 
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画面 ) 。 

从 最 底层 上 说 ， 半 导体 ROM 是 一 个 在 硅 片 上 实现 的 查找 表 。 给 定 一 个 地 址 输入 ， 它 会 选择 
该 地 址 对 应 的 门 ， 然 后 这 个 门 就 会 将 它 的 状态 输出 到 对 应 每 一 位 的 数据 线 上 。 如 图 7-7 所 示 ， 它 
给 出 了 一 个 4 字 节 ROM 示意 图 ,但 目前 实际 使 用 的 ROM 布局 会 比 这 个 图 复杂 一 些 。 

一 些 ROM (尽管 还 使 用 这 个 名 字 ) 是 可 写 的 。 但 ROM 的 命名 说 明了 它们 最 主要 的 功能 还 是 
读 取 ， 写 操作 或 者 无 法 实现 或 者 不 方便 实现 。 接 下 来 我 们 对 一 些 ROM 技术 的 变种 进行 讨论 。 

一 个 基本 的 掩 模型 ROM 芯片 包含 了 地 址 总 线 、 片 选 输入 、 读 信号 输入 以 及 电源 和 接地 管 脚 。 
它 能 够 将 当前 所 选择 地 址 的 内 容 输 出 到 数据 总 线 上 。 
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和 要 点 ; | 


ee -个 
逻辑 高 电 讨 | 
| “eleet] 这 保持 了 一 个 | 
| out 上 - 逻辑 低 电 不 | 
图 7-7 一 个 ROM 的 简化 图 。 它 是 一 个 由 逻辑 单元 组 成 的 阵列 ， 按 行 寻 址 ， 可 以 输出 8 位 
数据 ， 如 玉 定 义 暗 色 的 单元 所 包含 的 值 为 逻辑 1， 亮色 的 单元 所 包含 的 值 为 逻辑 0， 


那么 选择 第 1 行将 答 出 二 进 制 值 00110100b 或 十 六 进 制 值 0x34。 正 确 操作 下 ， 每 次 
只 有 工行 被 选择 








EPROM 可 擦 可 编程 ROM (erasable programmable ROM (PROM) ) ， 在 其 芯片 上 方 有 一 
硅 “ 窗 ”， 通 过 它 可 以 看 到 其 内 部 。 通 过 向 该 窗口 照射 10 分 钟 紫外 线 光 ， 其 内 部 的 数据 即 可 被 
氛 除 .然后 通过 向 所 选择 的 数据 管 脚 施加 高 电压 就 可 以 对 其 进行 编程 。 这 个 步骤 可 以 通过 
EPROM 编程 器 进行 ， 它 通常 带 有 一 个 插座 ， 由 此 可 以 方便 地 对 EPROM 进行 编程 。 如 果 一 个 设 
备 不 带 有 硅 窗 ， 那 么 它 就 是 不 可 所 除 的 EPROM ( 即 PROM)。 市 面 上 还 有 一 些 基于 硅 熔 丝 的 
ROM ， 它 们 通过 输入 高 电压 对 硅 片 上 的 炊 丝 进行 熔断 来 打开 或 关闭 连接 。 
作为 EPROM 的 升级 ，E*PROM 或 EEPROM 是 电 可 擦 除 PROM ( electrically erasable PROM ) ， 
即 内 存 (flash memory) 。 这 种 设备 可 以 通过 12V 电压 对 其 内 容 进行 擦 除 和 重 写 。 而 许多 现代 设备 
都 可 以 在 其 内 部 将 3.3V 或 5V 的 供电 电压 升 为 12V。 根 据 测试 得 知 ， 这 种 设备 都 有 使 用 寿命 ， 与 
它们 的 数据 保留 时 间 和 擦 除 次 数 相 关 ， 通 常 范 围 为 超过 10 年 且 在 1000 到 10 000 次 之 间 。 工 程 师 
在 选择 使 用 这 种 设备 时 都 要 注意 ， 在 其 寿命 周期 内 ， 对 其 读 的 次 数 多 而 改写 次 数 少 ， 可 以 延长 其 
寿命 。 图 7-8 展示 了 这 种 设备 中 的 一 种 管 脚 分布 ， 它 带 有 一 个 地 址 总 线 和 一 个 数据 总 线 。nWE 管 
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脚 (active-low write enable， 低 电 平 有 效 写 允许 ) 是 一 个 输出 管 脚 ， 指 出 该 设备 当前 可 以 写 人 。 
一 个 真正 的 EPROM 与 其 很 相似 ， 有 相同 的 管 脚 定义 ， 只 是 nWE 管 肢 除 外 (有 设备 标 为 “NC”， 
即 指 “没有 连接 ” (no connection) ) 。 

目前 有 两 种 闪存 技术 : NAND 闪存 和 NOR 闪存 ， 框 7.3 里 给 出 了 详细 介绍 。 





四 日 光 也 可 以 探 除 这 种 设备 ， 但 需要 花 更 长 的 时 间 。 央 此 ， 工 程 师 如 果 希 望 程序 能 够 保持 几 天 或 几 个 量 期 ， 需 要 
在 窗口 上 由 上 标签 以 避免 日 光照 射 。 
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16 Kibit EPROM 











NAND 和 NOR 闪存 

目前 有 两 种 不 同 的 闪存 技术 : NAND 闪存 和 NOR 
闪存 。 它 们 都 是 以 其 所 使 用 的 门 结构 来 命名 。NAND 
闪存 是 一 种 基于 块 、 高 密度 低 开 销 的 存储 ， 适 合 大 量 
数据 存储 。NAND 闪存 可 以 在 典 入 式 系统 中 取代 硬 
盘 ， 则 时 也 适合 在 MP3 播放 器 等 设备 中 进行 数据 
存储 。 

NOR 闪存 与 NAND 闪存 正好 相反 ， 它 密度 不 高 ， 
对 于 程序 员 来 说 就 是 ROM 的 一 种 。 然 而 ， 通 过 一 嘻 
复杂 的 写 操 作 ， 可 以 改变 其 只 读 特 性 ， 进 行 基于 块 的 
重 写 操作 。 

这 两 种 闪存 技术 的 对 比如 右 表 所 示 : 








一 款 主流 (虽然 很 老 ) 的 电 可 擦 除 可 编程 


只 读 存 储 器 (EEPROM) 。 它 有 11 个 地 址 
管 脚 ， 可 寻 址 16Kbit 存储 空间 ( 即 2048 
字 节 ， 字 长 为 8 位 )。 片 选 (nCE) 、 写 使 
能 (nWE)、 读 /输出 使 能 (nOE)、GND 
和 Vcec 都 在 图 上 标 出 。 这 款 2816A 可 以 进 
行 超过 10 000 次 写 操作 ， 并 可 以 保持 10 年 


特征 
容量 
接口 

存 取 类 型 
护 除 周期 
控 除 速度 
写 速度 
读 速度 
现场 执行 
价格 


NOR 
大 
与 SRAM 类 似 
随机 存 取 
超过 100 000 








NAND 
更 大 
基于 块 
按 序 存 取 
超过 1 000 000 
数 毫 妙 


否 
较 低 


对 于 内 入 式 应 用 、 代 码 存储 等 ， 我 们 限定 讨论 范围 为 NOR 闪存 ( 它 最 常见 ， 特 别 是 在 并 行 连接 设备 
中 )。 因 此 ， 除 非 有 其 他 特别 说 明 ， 本 书 所 讨论 的 闪存 设备 都 为 NOR 闪存 。 
囊 行内 存 ， 如 图 7-9 所 示 ， 是 采用 串 行 接口 而 非 并 行 接口 的 闪存 。 它 带 有 25MHz 的 串 行 总 





线 ， 





命令 字 、 地 址 字 节 以 及 控制 信号 都 要 通过 串 行 总 线 进行 传输 ， 这 是 造成 串 行内 存 速 度 比 并 行 


闪存 慢 的 主要 原因 。 首 先 要 指定 读 / 写 地 址 〈 这 种 指定 通常 需要 花费 一 定时 间 ) ， 然 后 是 任意 数 
量 的 字 节 读 或 写 (其 速度 会 快 得 多 ) ， 这 种 寻 址 机 制 使 得 它 很 适合 那 种 顺序 读 取 的 信息 存储 。 但 
对 于 随机 读 取 或 对 单个 字 节 进行 写 操作 ， 其 效率 很 低 。 


8| Vcc 
nHOLD 
C 





2Mibit s-flash 


D 








图 7-9 串 行 内 存在 同 -- 个 接口 界面 上 使 用 串 行 接 [1 、 多 重 控制 、 
侧 并 不 需要 额外 的 专用 引 脚 ， 尽 管 右 侧 的 数据 大 小 是 存储 器 阵列 左 侧 的 64 倍 。 可 以 看 到 的 


= 








是 这 个 设备 同样 是 很 微小 的 ， 只 有 6mm x5mm 大 小 








M23P128 
128Mibit s-flash 


8 | VCcc 


nHOLD 


地 址 和 数据 。 在 存储 器 阵列 的 右 
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大 多 数 闪存 设备 ， 不 管 是 串 行 存 取 还 是 并 行 存 取 ， 在 其 内 部 都 被 布局 为 多 个 决 或 页 。 这 些 闪 “BID 
存在 最 初 使 用 时 所 有 的 字 节 都 被 初始 化 为 0xff。 换 名 话说， 这 些 闪存 的 每 一 位 在 最 初 都 被 初始 化 
为 “1”。 可 以 寻 址 和 读 取 闪存 中 的 每 个 位 置 ， 对 每 个 字 节 的 访问 都 会 返回 0xff。 

对 存储 中 的 任何 位 置 都 可 以 进行 编程 。 当 需要 对 某 一 位 编程 为 “0” 时 需要 将 该 位 的 “1” 
清 为 “0” ， 而 需要 编程 为 “1” 时 则 保持 不 变 。 

例如 ， 初 始 时 某 位 置 为 字 节 0xf， 如 果 需 要 将 其 编程 为 0x3 ， 则 该 字 节 将 变 为 0x3。 如 果 再 
将 同一 个 位 置 编程 为 0xa7， 则 该 位 置 将 变 为 0xB3 和 0xa7 相 与 的 结果 ， 为 0xa3 (因为 1010 0111 
AND 1111 0011 =1010 0011) 。 显然， 如 果 不 断 地 写 菜 个 字 节 ， 它 最 终 将 变 为 0x00。 所 以 开发 人 
员 在 使 用 闪存 时 可 以 看 到 未 被 控 除 的 位 置 被 设置 为 0xff。 

每 当 闪存 被 擦 除 ， 它 上 边 的 每 个 字 节 都 将 被 置 为 0xf。 事 实 上 ， 这 种 氛 除 是 按 块 来 进行 的 ， 
所 以 一 旦 执行 了 氛 除 命令 ， 所 选择 的 一 整 块 都 将 变 为 Qxf。 同 时 也 可 以 将 某 一 块 锁 住 ， 禁 止 对 其 
进行 擦 除 操作 。 

读 闪 存 与 读 ROM 的 方式 是 一 样 的 ， 痢 要 遵循 6.2 节 中 所 述 的 标准 总 线 传输 。 本 质 上 ， 这 总 
际 着 如 果 CPU 要 读 取 所 连接 的 外 设 内存， 则 需要 进行 ( i ) 在 地 址 总 线 上 设置 需要 访问 的 地 址 ; 
(证 ) 署 片 移 信 号 nCE; (证) 置 输出 使 能 信号 nOE; (jv) 允许 设备 在 某 个 时 刻 访问 到 指定 的 位 
置 ， 确 定 其 内 容 并 输出 到 数据 管 脚 上 ;( V ) 从 数据 总 线 上 读数 据 ， 这 个 步骤 必须 在 〈 了 i) 对 所 
有 的 信号 进行 复位 前 完 

写 操作 与 读 操作 类 似 ， 只 是 需要 在 数据 总 线 上 设置 要 写 人 的 数据 以 及 置 写 使 能 信号 (nWE) 
而 非 nOE。 如 果 这 个 过 程 是 在 一 个 SRAM 芯片 (将 在 接 下 来 的 章节 中 讨论 ) 上 进行 ， 它 将 被 写 
到 指定 的 位 置 。 然 而 ， 对 于 闪存 这 个 过 程 稍微 有 点 复杂 。 它 需要 写 人 一 系 列 指令 以 对 其 进行 控制 ”2 
(在 指定 存储 位 置 被 写 和 前) 。 下 表 分 别 给 出 了 来 自 Atmel 和 Intel 的 两 款 闪存 设备 的 写 人 控制 指 
令 序列 : 














Atmel AT29xxx Intel 28F008SA 
数据 地 址 数据 地 址 
编程 0xaaaa 0x5555 0x10 <addr > 
0x5555 0x2aaa < data > <addr > 
0xa0a0 0x5555 
<data> <addr> 
擦 除 扁 区 0x00aa 0x5555 0x20 <addr > 
0x0055 0x2aaa 0xaq0 <addr > 
0x0080 0x5555 
Ox00aa 0x5555 
0x0055 0x2aaa 
Ox0050 <addr > 
氛 除 设备 0x00aa 0x5555 不 支持 
0x0055 0x2aaa 
0x0080 0x5555 
0x00aa 0Xx5555 
Ox0055 Ox2aaa 
0x0010 0x5555 








因此 ， 对 Atmel 闪存 的 地 址 0x1001 写 人 字 0x1234 需要 4 个 写 周期 : 
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。 写 0xaaaa 到 地 址 0x5555。 

e 写 0x5555 到 地 址 0x2aaa。 

es 写 0xa0a0 到 地 址 0x5555。 

。 最 后 ,该 闪存 向 地 址 0x1001 写 入 数据 0x1234。 

对 于 Intel 闪存 ， 指 令 序列 相对 短 一 些 : 

e 写 0x0010 到 地 址 0x1001。 

。 瑟 0x1234 到 地 址 0x1001。 

之 所 以 需要 如 此 烦琐 的 写 步 又 是 为 了 避免 对 闪存 的 意外 重 写 (这 种 情况 在 CPU 程序 错误 运 
行 时 可 能 会 发 生 一 一 产生 -- 个 随机 地 将 数据 写 人 不 同 地 址 的 程序 并 不 困难 ) 。 闪 存 上 一 般 还 有 另 
一 层 保 护 机 制 ， 它 会 检测 供电 电压 ， 如 果 电 压 较 低 或 出 现 明显 波动 ， 将 会 禁止 写 入 。CPU 还 可 
以 对 内 存 上 不 同 的 状态 寄存 器 进行 读 取 (这 也 需要 通过 写 一 系列 的 指令 将 设备 转 人 “ 读 取 状态 
寄存 器 模式 ”或 其 他 类 似 模 式 ， 之 后 的 一 条 或 两 条 读 指 令 将 返回 状态 寄存 器 的 内 容 ) 。 另 一 条 指 
令 可 以 读 出 设备 的 制造 商 和 设备 识别 信息 ， 因 此 一 个 好 的 程序 可 以 根据 所 连接 的 不 同 设备 确定 
相应 的 编程 算法 。 

需要 注意 的 是 ,虽然 之 前 所 示 的 是 目前 大 部 分 厂商 所 遵循 的 两 种 主要 指令 控制 序列 类 型 
( 即 大 部 分 设备 的 控制 方式 与 这 两 种 相似 ), 但 是 不 同 的 制造 厂商 对 自己 的 闪存 是 有 不 同 的 指令 
控制 序列 的 。 

闪存 从 本 质 上 是 一 种 基于 块 的 技术 虽然 根据 需要 可 以 对 独立 的 字 进 行 读 或 编程 ， 但 氛 
除 操作 是 按 块 进行 的 (这 一 点 对 于 所 有 基于 闪存 的 技术 是 一 样 的 ， 例 如 紧 竣 式 闪 存 (compact 
flash，CF) 存储 卡 、 安 全 数字 (secure digital，SD) 存储 卡 、 记 忆 棒 (memory stick) 等 ， 虽然 对 
于 这 点 大 部 分 用 户 都 是 不 知道 的 )。 对 闪存 中 一 个 64KiB 块 改变 一 个 字 节 通常 需要 经 过 以 下 

。 将 闪存 的 整个 块 读 人 RAM。 

。 在 RAM 上 找到 需要 改变 的 字 节 并 用 新 的 值 进 行 替换 。 

e 发 送 指令 序列 对 闪存 上 的 块 进行 擦 除 。 

e (等 待 以 上 操作 完成 。) 

。 发 送 指令 序列 开始 进行 写 操作 ,将 整 块 写 回 到 闪存 上 。 

抉 -- 般 部 非常 大 之 前 提 到 64KiB 的 块 并 不 是 太 常见 的 ， 所 以 闪存 对 于 存储 那些 经 常 要 改 
变 的 小 变量 并 不 是 太 好 的 选择 。 

从 一 个 编程 人 员 的 角度 ， 指 定 不 同类 型 的 信息 存储 在 不 同 的 块 上 是 很 有 用 的 。 在 宜人 入 式 系 
统 中 ， 对 于 引导 内 存 有 特别 要 求 (这 点 将 在 7.8 节 进 行 讨 论 ) 。 一 种 简单 的 方法 就 是 将 经 常 需要 
重 写 的 内 容 (如 配置 信息 ) 放 在 同一 个 块 内 ， 而 将 不 经 常 重 写 的 内 容 放 在 另 一 个 块 内 。 

随 着 闪存 使 用 时 间 的 增加 ， 它 的 速度 会 逐渐 变 慢 ， 揭 除 或 编程 几 个 字 节 都 变 得 十 分 耗 时 。 显 
然 ， 我 们 更 希望 闪存 不 会 降低 所 连接 的 计算 机 的 速度 ， 因 此 闪存 的 设计 人 员 提 出 了 一 些 聪明 的 
方法 来 解决 这 种 问题 。 图 7- 10 是 其 中 一 种 方法 的 模块 图 ， 它 将 一 个 块 大 小 的 RAM 加 入 到 闪存 
中 。 编 程 人 员 想 要 对 闪存 中 的 一 个 块 进行 写 操 作 时 ， 可 以 先 将 数据 快速 地 写 人 到 这 个 基于 SRAM 
的 RAM 块 上 ， 然 后 发 出 指令 计 设 备 自行 将 整个 RAM 的 内 容 找 贝 到 目标 办 存 块 上 上。 类似 地 ， 当 只 
有 一 个 字 节 需要 改变 的 时 候 ， 闪 存 块 首先 被 自行 拷贝 到 这 个 RAM 上 ， 然 后 编程 人 员 将 所 需 改 变 
的 字 节 写 人 到 RAM 上 ， 再 发 出 指令 擦 除 目标 闪存 块 并 从 RAM 上 拷贝 。 

如 图 7-10 所 示 的 闪存 结构 在 目前 主流 的 并 行内 存 设备 中 被 广泛 采用 。 在 串 行 内 存 中 ，nOE、 
nWE 及 其 他 控制 信号 都 是 由 串 行 接口 控制 器 发 出 ， 而 不 是 直接 从 并 行 接口 获得 。 
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网 7-10 带 有 RANM 的 闪存 内 部 结 爸 模块 图 。 该 RAM 为 块 大 小 ， 用 于 存储 编程 数据 。 这 个 
闪存 阵列 包含 多 个 相等 的 块 。 从 从 轴 各 定语 以 0 于 玫 科 的 训 
来 提高 闪存 容量 〈 实 际 中 一 般 都 多 于 4 列 ) 。 箭 头 所 指 的 方向 连接 着 数据 总 线 


7.6.3 随机 存 取 存 储 器 


“随机 存 取 存储 器 ”(Random Access Memory，RAM) 这 个 词 与 ROM 一 样 ， 描 述 的 是 一 种 存 
取 方 式 而 不 是 一 种 技术 : 它 是 指 存储 器 中 的 任何 位 置 都 可 以 根据 需要 任意 存 取 (包括 读 出 和 写 
入 )。 这 种 存 取 对 于 今天 的 计算 机 来 说 是 很 普遍 的 ， 与 它 相 对 的 是 串 行 存 取 ， 如 在 磁带 和 基于 延 
迟 的 存储 器 上 ， 获 取 数 据 的 顺序 与 数据 被 写 人 的 顺序 相同 。 在 早期 的 计算 机 中 串 行 数据 存 取 产 
生 的 约束 问题 不 是 太 普遍 。 

当然 ， 串 行 存 取 和 随机 存 取 之 间 还 有 一 个 区 别 一 一 RAM 是 可 以 寻 址 的 ， 因 此 它 需 要 一 个 地 
址 指出 所 要 存 取 数据 的 位 置 。 对 于 更 为 普遍 的 并 行 总 线 存 储 ， 这 个 地 址 由 并 行 地 址 总 线 给 出 。 有 
时 候 地 址 总 线 与 数据 总 线 复 用 。 而 串 行 存储 设备 则 使 用 串 行 机 制 来 传输 地 址 〈 如 7. 6. 2 节 所 讨论 
的 串 行 内 存 设备 ) 。 


总 体 而 言 ， 目 前 有 两 种 类 型 的 RAM i 
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314 





技术 : 静态 RAM ( static RAM，SRAM ) 每 位 由 六 不 晶体 管 攀 成 | 每 位 由 一 个 晶体 管 构成 


和 动态 RAM (dynamic RAM，DRAM ) 。 较 低 密度 较 高 密度 
而 DRAM 又 可 以 细 分 为 几 种 子 类 ， 我们 不 需要 刷新 需要 周期 性 刷新 
将 会 在 稍 后 进行 简要 介绍 。 右 表 是 SRAM 〔《” 大 容量 存储 偏 贵 大 容量 存储 便宜 








和 DRAM 的 主要 区 别 。 工作 时 需要 较 高 电压 车 作 时 需要 较 低 电 讨 
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7.6. 3.1 静态 RAM 

SRAM 虽然 被 称 为 “静态 ”的 ,但 是 它 仍 旧 是 一 个 易 失 性 存储 器 一 一 当 失 去 供电 时 ， 所 
存储 的 数据 就 会 丢失 。 之 所 以 被 称 为 “静态 ”是 因为 它 的 每 个 存储 单元 只 要 保持 供电 就 可 以 
一 直 保 持 数 据 状态 ， 而 不 需要 刷新 过 程 。 而 我 们 稍 后 将 提 到 的 动态 RAM， 就 需要 进行 周期 性 
刷新 。 

SRAM 速度 相对 较 快 , 但 由 于 其 每 个 逻辑 单元 的 电路 复杂 度 是 DRAM 的 数 倍 ， 所 以 它 价 
格 更 贵 、 密 度 更 低 并 且 在 读 写 过 程 中 消耗 的 能 量 也 更 多 。 但 现代 SRAM 在 非 读 写 状态 时 的 功 
耗 比 DRAM 低 ， 这 是 因为 DRAM 不 像 SRAM， 它 在 没有 访问 的 时 候 也 需要 进行 周期 性 的 刷新 
操作 。 

SRAM 在 使 用 和 连接 上 与 ROM 很 相似 。 参 考 图 7-11 中 所 示 的 两 款 SRAM 管 脚 分 布 ， 与 
图 7-8 的 EEPROM 在 数据 连接 方面 有 相似 之 处 ， 只 是 管 脚 位 置 略 有 不 同 。 图 7-11 中 的 两 款 SRAM 
的 容量 分 别 为 16Kibit 和 1Mibit。16Kibit 的 SRAM 有 11 个 数据 总 线 管 脚 (因为 2" =2048 x8bit = 
16 384bit) ， 而 1Mibit 的 SRAM 则 有 17 个 (A[16..0]， 因 为 2” = 131 072 x 8bit = 1024Kibit = 
1Mibit ) 。 








16 Kibit SRAM 


All 
| nOE 
| Al0 





区] 
1/O8 
1/07 
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431000 
1 MibitSRAM 
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图 7-11 两 款 早期 SRAM (16Kibit 的 6116 和 1Mibit 的 431000) 管 脚 图 。 注 意 到 它们 都 拥有 相同 
的 8 位 输入 /输出 端口 (通常 与 数据 总 线 连 接 )、 供 电 管 脚 、 片 选 管 脚 (nCS) 和 读 写 
管 脚 。 而 右边 芯片 的 容量 是 左边 的 64 倍 ， 因 此 比 左边 的 多 出 6 个 地 址 管 脚 《( All ~ A16) 


SRAM 与 ROM 一 样 拥有 规整 的 内 部 单元 结构 。 图 7-12 给 出 了 一 个 简化 的 SRAM 矩阵 图 ， 对 
这 些 单元 可 以 并 行 地 进行 独立 寻 址 (与 图 中 的 8 位 并 行 总 线 相 连接 ) ， 并 且 在 地 址 被 选择 的 情况 
下 可 以 对 相应 单元 进行 读 出 或 写 人 。 双 向 缓冲 将 外 部 数据 总 线 和 内 部 数据 线 连接 起 来 ， 按 方向 
控制 ， 以 避免 跟 其 他 连接 在 相同 外 部 数据 总 线 上 的 单元 发 生 总 线 竞 争 。 
SRAM 通常 在 单 片 计算 机 上 被 用 做 cache 存储 和 片上 存储 。 在 简单 的 小 型 误 人 式微 控制 器 中 ， 
SRAM 通常 被 用 做 外 部 存储 ， 其 存储 容量 一 般 为 数 十 KiB 〈 因 为 至 少 在 低 密 度 时 DRAM 和 SRAM 
B16] 的 价格 差别 不 大 ， 且 微 控制 器 一 般 较 为 简单 ， 从 而 不 支持 DRAM ) 。 
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图 7-12 简化 的 SRAM 内 部 结构 模块 图 。 它 由 一 个 存储 单元 阵列 组 成 ， 通 过 总 线 译 码 器 和 读 / 
写 控制 器 的 控制 可 以 对 其 进行 读 出 和 写 人 
7.6. 3.2 动态 RAM 

之 前 曾 提 到 过 ， 动 态 RAM 之 所 以 被 称 为 “动态 ”是 因为 它 总 是 在 不 断 地 变化 : 每 个 单元 所 
存储 的 值 由 与 每 位 对 应 的 单一 品 体 管 相 连接 的 电容 确定 ， 由 于 门 是 会 “漏电 ”的 ， 因 此 这 些 电 
容 会 不 停 地 放电 。 刷 新 的 过 程 是 依次 读 取 每 个 单元 ， 然 后 对 甚 电容 进行 适当 的 充电 。 任 何 未 被 刷 
新 的 单元 都 将 在 几 毫 秒 内 丢失 其 电荷 。 

写 过 程 是 将 电荷 通过 晶体 管 充 人 电容 (逻辑 高 ) 或 对 电容 进行 放电 逻辑 低 )。 有 趣 的 是 ， 
通过 读 过 程 确定 单元 内 的 电荷 ， 还 会 刷新 该 单元 ， 因 此 对 整个 DRAM 进行 周期 性 的 读 取 也 可 以 
对 该 DRAM 进行 刷新 。 

现代 DRAM 都 是 高 度 集成 的 ， 并 且 大 部 分 与 DRAM 相连 接 的 微 处 理 器 (或 其 他 支持 DRAM 
的 芯片 ) 都 会 自动 进行 刷新 过 程 ， 这 只 需 对 几 个 寄存 器 进行 正确 的 设置 。 然 而 ， 刷 新 需要 消耗 














一 定 的 时 间 ， 这 个 时 间 也 许 就 是 CPU 等 待 存储 就 绪 的 时 间 ， 但 这 对 CPU 性 能 的 影响 不 大 。 BI7 


DRAM 从 20 世纪 60 年 代 中 期 发 展 到 现在 经 过 了 一 段 非常 长 的 历史 ， 在 这 期 间 经 历 了 许多 发 
展 。 表 7-2 列 出 了 一 些 重 要 里 程 碑 ， 包 括 发 布 时 间 、 时 钟 速度 以 及 工作 电压 。 


表 7-2 ” SDRAM 技术 发 展 史上 一 些 重 要 的 里 程 碑 























名 称 年 份 时 钟 频率 电压 
基本 DRAM 1966 3 SV 
快 页 模式 (Fast Page Mode，FPM) 1990 30MHz SV 
扩展 数据 输出 (Extended Data Out ，EDO ) 1994 40MHz 5V 
同步 DRAM( Synchronous DRAM, SDRAM) 1994* 40MHz 3.3V 
rambus DRAM( Rambus DRAM, RDRAM) 1998 400MHz 2.5V 
双 售 数据 速率 (Double- Data- Rate, DDR) SDRAM 2000 266MHz 2.5V 
DDR2 SDRAM 2003 533MHz 1.8V 
DDR3 SDRAM 2007 800MHz 1.5V 


* IBM 独立 使 用 同步 DRAM 的 时 间 比 这 个 时 间 旱 。 





注意 : RD 和 DDR RAM 在 时 钟 上 升 沿 和 下 降 活 都 传输 数据 ， 因 此 它们 工作 的 频率 是 时 钟 频率 的 两 倍 。 318 
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DRAM 与 SRAM 的 最 大 区 别 在 于 它 的 本 质 是 动态 的 ， 需 要 持续 刷新 。 由 于 DRAM 位 存储 单 
元 比 SRAM 的 小 很 多 ， 所 以 DRAM 比 SRAM 要 便宜 且 密度 更 大 。 但 是 DRAM 比 SRAM 速度 慢 ， 
并 且 在 没有 读 写 的 时 候 的 功 耗 比 SRAM 要 大 (但 在 有 存 取 时 SRAM 的 功 耗 更 大 ) 。 

DRAM 的 寻 址 机 制 也 是 与 SRAM 的 另 一 个 主要 区 别 。 参 考 图 7-13 中 给 出 的 两 个 大 小 分 别 为 
16Kibit 和 1Mibit 的 早期 DRAM 芯片 的 管 脚 分 布 图 。 首 先 ， 可 以 看 到 它们 都 带 有 几 个 不 常见 的 信 
号 nWRITE、nRAS、nCAS、Din 和 Dout， 这 些 我 们 将 在 稍 后 介绍 。 其 次 ， 将 DRAM 的 管 脚 分 布 与 
图 7-11 所 示 的 SRAM 管 脚 分 布 相 比 较 ， 我 们 发 现 虽 然 这 两 张 图 给 出 的 都 是 16Kibit 和 1Mibit 大 小 
的 两 个 存储 芯片 ， 但 在 SRAM 的 例子 中 ,右边 芯片 (1Mibit) 的 地 址 管 脚 数 比 左边 芯片 
(16Kibit) 的 多 6 个 ， 而 在 DRAM 的 例子 中 ， 右 边 芯片 的 地 址 管 脚 数 只 比 左 边 芯片 多 了 3 个 。 由 
于 64 倍 容量 的 差别 在 地 址 空间 上 应 为 2 扩展 ， 所 以 应 该 需要 6 个 额外 地 址 管 脚 。 由 此 看 来 
DRAM 的 寻 址 没有 我 们 目前 所 看 到 的 那样 简单 ， 我 们 将 在 稍 后 进行 探讨 。 
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图 7-13 两 个 早期 DRAM 芯片 (16Kibit 的 4116 和 1Mibit 的 511000) 的 管 脚 图 。 这 两 个 芯片 
都 只 输出 单个 位 数据 〈 因 此 当 与 8 位 数据 总 线 连接 时 需要 8 片 并 行 连接 ) 。 注 意 它们 
的 控制 信号 都 是 一 样 的 。 虽然 右边 此 片 的 容 景 为 左边 巷 片 容量 的 64 倍 ， 但 只 多 出 3 
个 地 址 管 脚 (A7 - A9) 。Vbb 、Vec 、Vdd 和 Vss 分 别 是 不 同 的 电源 管 肝 
7. 6. 3. 3 ”DRAM 的 寻 址 机 制 
首先 ， 我 们 需要 提醒 的 是 ，DRAM 都 是 根据 行 〈 常 称 为 一 页 ) 和 列 一 起 寻 址 的 。 这 点 与 我 
们 之 前 讨论 的 那些 只 按 行 寻 址 的 存储 结构 不 一 样 。 事 实 上 ， 管 脚 分 布 与 如 图 7-13 所 示 的 管 脚 图 
相似 的 DRAM 是 1 位 DRAM 一 一 为 了 构成 8 位 的 数据 总 线 ， 需 要 8 片 这 样 的 DRAM 并 行 执行 ， 每 
片 对 应 一 位 数据 。 这 些 并 行 芯片 的 Dout 管 脚 分 别 依次 连接 到 数据 总 线 的 DO、D1 、D2、D3 等 上 。 
从 如 图 7-14 所 示 的 DRAM 内 部 结构 中 我 们 可 以 更 清楚 地 了 解 这 种 按 行 和 列 一 起 寻 址 的 机 制 。 
图 中 所 有 的 内 部 存储 单元 分 布 成 一 个 矩形 矩阵 ， 每 个 存储 单元 内 包含 一 个 晶体 管 和 一 个 用 于 存 
储 电荷 的 电容 。 当 行 地 址 开关 (nRAS) 被 激活 时 ， 将 会 把 地 址 总 线 上 的 内 容 装载 至 行 地址 锁 存 
器 。 多 路 输出 选 通 器 根据 行 地 址 信号 匹配 确定 哪 行 (页 ) 将 要 输出 所 存储 的 电荷 。 列 地 址 开关 
(nCAS) 也 被 激活 ， 将 地 址 总 线 上 的 内 容 装载 至 列 地 址 锁 存 器 ， 然 后 根据 列 地 址 信号 确定 所 选择 
的 行 中 哪 一 位 将 要 被 选择 输出 。 
与 每 一 条 位 线 ( 列 ) 相连 的 输出 放大 器 负责 检测 所 选择 单元 电容 中 的 电荷 ， 并 将 其 充满 。 
由 此 ， 在 选择 某 一 页 之 后 ， 如 果 电 荷 比 位 线 上 的 某 个 阔 值 大 ， 则 输出 放大 器 输出 一 个 电压 ， 对 这 
条 位 线 上 相连 的 单元 电容 进行 充电 。 如 果 所 检测 的 电压 低 于 阔 值 ， 则 输出 放大 器 不 会 输出 该 
电压 。 


第 7 章 ”实用 财 入 式 CPU 


_ 行 选择 
nga 




















































































































属 ” 列 选 择 多 路 选 通 器 和 输出 放大 器 。 
: CA 
i | 列 地 址 久光 | 姜 一 1 
nRAS6 All BnCAS o Dout/Din onWRITE 


图 7-14 DRAM 的 内 部 行 / 列 选择 机 制 示意 图 。 其 中 行 地 址 锁 存 器 和 列 地 址 锁 存 器 分 别 存 储 行 
地 址 和 列 地 址 , 行 地 址 和 列 地 址 都 由 相同 的 地 址 总 线 传输 ， 分别 由 行 地 趟 开关 
(nRAS) 和 列 地 址 开关 (nCAS) 控制 。 这 个 和 矩阵 的 输出 与 数据 总 线 上 的 一 位 相连 

实际 上 ,输出 放大 器 在 nRAS 选择 某 一 行 之 后 被 触发 ， 而 这 个 充电 过 程 也 是 自动 进行 的 ， 即 
DRAM 的 “刷新 ”过 程 不 需要 牵扯 列 地 址 一 一 所 需 的 就 是 轮流 按 行 进行 刷新 〈 正 如 之 前 所 提 到 
的 ， 大 部 分 支持 DRAM 或 SDRAM 的 CPU 都 将 自动 完成 这 个 过 程 ) 。DRAM 一 般 每 64ms 需要 进 
行 一 次 刷新 ， 因 此 每 一 行 都 需要 轮流 在 此 时 间 内 被 选择 一 次 。 

当然 ,许多 DRAM 都 不 是 1 位 DRAM， 而 是 字 节 型 或 字 型 的 。 这 种 情况 是 将 基本 的 DRAM 
在 一 个 芯片 上 复制 成 多 个 副本 。 图 7-15 是 一 个 与 8 位 总 线 连接 的 DRAM。 它 密度 很 低 ， 只 是 一 
个 256 位 的 存储 器 。 由 于 每 一 位 对 应 的 单元 都 为 4 行 8 列 ， 所 以 行 地 址 为 2 位 ， 列 地 址 为 3 位 。 

一 个 16Kibit 的 存储 〈 如 图 7-13 所 示 的 4116) 有 128 行 128 列 (128 x128 =16384) ， 因 此 需 
要 7 (2 =128) 条 地 址 线 来 对 这 些 单元 进行 寻 址 。 一 个 与 总 线 相连 的 CPU 从 这 种 芯片 上 读 取 一 
位 的 步骤 如 下 (初始 时 所 有 信号 都 为 无 效 的 一 一 nRAS、nCAS、nWRITE 都 是 高 电 平 ) : 

1. 将 行 地 址 输出 到 地 址 总 线 上 。 

2. 使 能 anRAS (将 其 从 逻辑 高 变 为 逻辑 低 ， 由 此 使 得 行 地 址 锁 存 器 能 够 捕捉 到 地 址 总 线 上 的 
行 地址 ) 。 

3. 将 列 地 址 输出 到 地 址 总 线 上 。 

4. 使 能 nCAS 以 锁 存 列 地 址 。 

5. 存储 器 将 在 一 定时 间 后 将 所 选择 的 存储 单元 的 内 容 输出 到 与 其 相连 的 数据 总 线 上 ， 这 些 
内 容 就 可 以 被 CPU 读 取 了 。 

6. 撤销 nCAS 并 停止 驱动 地 址 总 线 。 

7. 撤销 nRAS。 

通过 观察 我 们 知道 对 DRAM 进行 读 写 要 遵循 一 些 严格 的 时 序 。 有 一 点 是 明确 的 ， 由 于 每 存 
取 一 位 需要 两 个 地 址 对 其 进行 寻 址 ， 因 此 DRAM 的 存 取 速 度 没有 像 SRAM 那 种 只 需 一 个 地 址 就 
能 进行 访问 的 存储 器 快 。 但 从 开销 和 密度 上 考虑 ， 这 是 可 以 容忍 的 : 如 图 7-13 所 示 ， 将 16Kibit 
的 DRAM 扩展 为 1Mibit 只 需 额外 增加 3 条 地 址 线 ， 而 对 于 SRAM (图 7-11) 则 需 增加 6 条 。 对 于 
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更 大 密度 的 存储 ，DRAM 在 管 脚 数 量 上 的 优势 则 更 为 明显 。 
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图 7-15 将 图 7-14 的 1 位 DRAM 复制 8 个 副本 爸 成 一 个 与 8 位 总 线 相连 接 的 DRAM。 对 所 有 
内 部 块 而 言 控制 信号 和 寻 址 信号 都 是 一 样 的 (实际 中 所 有 的 块 都 共享 同一 个 行 地址 
锁 存 器 和 同一 个 列 地 址 锁 存 器 ) 
为 了 避免 增加 管 脚 数量 ， 设 计 人 员 在 行 / 列 寻 址 机 制 上 找到 了 更 聪明 的 办 法 。 例 如 ， 对 同一 
行 连续 读 就 可 以 避免 使 能 nRAS 信号 (因为 所 读 取 的 行 相同 ， 其 地 址 也 相同 ) ， 读 - 写 或 写 - 读 
组 合 也 能 对 其 进行 简化 。 
这 些 技术 所 带 来 的 优势 巨大 ， 我 们 在 表 7-2 中 列举 了 一 些 。 表 中 列 出 的 第 一 项 创新 是 快 页 模 
式 (fast page mode) ， 它 是 对 某 一 页 的 多 个 位 置 进行 读 从 而 不 需要 重复 使 能 nRAS。 
DRAM 也 适合 用 做 视频 卡 ， 称 为 视频 RAM (Video RAM，VRAM) 。 它 的 特征 是 拥有 两 个 数 
据 端口 用 于 从 存储 阵列 中 读 取 数据 。 一 个 端口 〈 与 主 CPU 相连 ) 用 于 处 理 器 对 存储 器 进行 读 写 


第 7 章 实用 典 入 式 CPU ， 209 


访问 。 男 一 个 端口 与 视频 数 模 转换 器 〈Digital- to- Analogue Converter，DAC) 相连 接 ， 是 只 读 的 ， 
可 以 对 阵列 中 的 数据 进行 按 位 读 取 并 显示 在 屏幕 上 。 

回 到 通用 DRAM ， 扩 展 数据 输出 (Extended Data Out，EDO) 类 型 的 存储 器 采用 了 一 个 内 部 
锁 存 器 保存 该 页 的 数据 ， 如 此 可 以 使 得 CPU 在 开始 读 取 下 一 页 时 仍 能 读 取 当前 页 的 数据 。 这 实 
际 上 是 流水 线 的 一 种 形式 ， 可 以 通过 阻塞 多 个 读 操作 对 其 进行 优化 ， 如 此 这 些 读 操作 可 以 一 起 
执行 (在 EDO DRAM 的 突 发 模式 下 最 多 支持 4 个 读 操 作 ) 。 特 别 是 对 于 多 片 存储 ， 如 果 能 够 良好 
地 对 存储 块 进行 交织 ， 则 可 以 交错 读 取 存储 块 ， 从 而 进一步 提高 存 取 速度 。 

至 此 ， 之 前 所 提 到 的 各 DRAM 变型 虽然 都 由 CPU 控制 ， 但 它们 与 CPU 都 是 异步 的 ， 而 CPU 
自身 是 同步 的 。 而 事实 上 很 明显 ， 如 果 需 要 进一步 提高 这 些 存储 设备 的 性 能 就 需要 利用 总 线 时 
钟 ， 由 此 同步 DRAM (SDRAM) 就 被 发 明 出 来 了 。 同 步 使 得 存储 设备 能 够 提前 预 取 数据 以 便 为 
下 一 个 时 钟 周期 做 好 准备 ， 从 而 能 够 更 好 地 通过 交织 内 部 存储 访问 或 使 用 其 他 技术 来 对 读 写 操 
作 进 行 流水 化 处 理 。 

SDRAM 性 能 的 最 大 改善 来 自 提 高 它们 的 时 钟 频率 和 人 允许 在 存储 时 钟 的 上 升 洛 和 下 降 沿 都 进 
行 数 据 传 输 (即将 每 个 周期 传输 一 个 字 变 为 每 周期 传输 两 个 字 一 一 一 个 在 下 降 沿 传输 ， 另 一 个 
在 上 升 沿 传输 ) 。 这 就 是 所 谓 的 双 倍 数据 速率 SDRAM (DDR SDRAM)。 


7.7 分 页 与 重生 

我 们 在 7.6 节 中 见识 了 真正 的 存储 器 设备 ， 现 在 再 来 回顾 一 下 4.3 节 中 介绍 的 内 存 管理 单元 
(MMU)。MMU 的 配置 通常 被 认为 是 一 个 相当 复杂 的 话题 (作者 有 真实 经 历 ， 在 十 分 紧迫 的 工程 
时 间 约 束 下 使 用 低级 汇编 语言 实际 配置 MMU 是 十 分 困难 的 ) 。 

在 大 部 分 拥有 MMU 的 系统 中 ， 存 储 页 和 外 部 大 容量 存储 设备 进行 进出 交换 ， 这 些 大 容量 存 
储 设备 通常 都 是 硬盘 。 存 储 器 管理 系统 保存 着 这 些 页 面 信息 ,在 任意 时 刻 知 道 它 们 是 存放 在 内 
部 存储 器 上 还 是 外 部 硬盘 上 ， 并 且 可 以 根据 CPU 的 指令 来 进行 载 人 或 者 保存 操作 。 

MMU 功能 是 长 期 创新 和 逐渐 改进 的 结果 ， 但 是 现在 往 回 退 几 代 ， 我 们 来 考察 一 下 在 没有 
MMU 的 情况 下 如 何 设计 。 这 并 不 是 一 个 简单 的 思想 实验 ， 在 现代 找 人 式 处 理 器 中 通常 都 会 受到 
片上 存储 的 限制 ， 设 计 者 经 常会 耗 尺 处理 器 上 的 RAM 空间 。 

让 我 们 考虑 一 种 真实 情况 ， 软 件 工程 师 正在 为 一 部 手机 中 的 圣人 式 处 理 器 开发 控制 程序 。 
临近 开发 末期 ， 他 们 所 编写 的 代码 规模 以 及 所 要 占用 的 存储 空间 分 别 如 下 : 

e 运行 时 存储 : 18KiB 的 RAM 

e 程序 存储 : 15KiB 的 ROM 

可 能 发 生 的 情况 是 处 理 器 只 有 16KiB 的 内 部 RAM， 明 显 不 能 满足 程序 执行 和 存储 要 求 。 如 果 在 
系统 中 片上 存储 或 者 并 行 外 部 ROM 可 用 ， 那 么 程序 就 可 以 直接 从 这 些 存储 器 上 执行 (但 是 任何 
读 写 代码 一 般 都 存放 在 RAM 中 ， 大 部 分 情况 下 所 谓 的 ROM 可 能 实际 上 是 内 存 )。 然 而 ， 让 我 们 
假设 这 种 情况 下 可 提供 的 闪存 是 1MiB ， 并 连接 在 一 个 25MHz 的 SPI ( 串 行 外 设 接口 ) 串口 上 。 

不 幸 的 是 ， 从 这 些 存 储 器 上 执行 代码 实在 是 太 慢 了 。 

事实 上 ， 设 计 者 很 关注 系统 的 时 间 特 性 。 从 上 电 开 始 ， 这 个 处 理 器 在 程序 开始 执行 之 前 ， 用 
了 将 近 Sms 来 将 程序 代码 从 闪存 中 读 人 RAM(15 x 1024 x 8bit/25 x 10s)。 

假设 不 考虑 提高 代码 效率 和 采用 更 多 RAM 的 解决 方案 , 设计 者 必须 在 系统 中 采用 重 悉 
(overlay) 技术 来 适应 当前 的 存储 器 配置 。 这 个 技术 的 使 用 原则 是 所 有 软件 并 不 都 在 同一 时 刻 运 
行 ， 事实 上 ， 软件 的 菜 些 部 分 是 互 斥 的 。 例 如 ， 无 线 设备 软件 允许 设备 运行 在 传统 模式 ， 设 备 在 
上 电 时 可 以 选择 是 普通 模式 或 者 传统 模式 ， 但 是 不 能 同时 选择 两 个 模式 。 记 住 这 些 ， 就 不 难 解释 
为 什么 这 两 种 模式 的 软件 程序 不 应 该 一 起 存放 在 RAM 中 ， 而 是 在 具体 的 模式 被 选择 时 再 载 入 所 
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对 应 的 程序 。 

设计 者 因此 将 所 要 执行 的 代码 分 为 两 个 可 执行 部 分 或 者 重 琶 部 分 。 一 部 分 是 传统 模式 的 ， 
一 部 分 是 普通 模式 的 。 这 种 做 法 看 上 去 不 是 很 高 效 ， 因 为 两 个 部 分 共享 很 少 的 功能 ， 而 且 共 享 的 
功能 可 能 要 提供 两 次 ， 也 就 是 对 两 个 重 释 部 分 分 别提 供 。 另 外 还 需要 一 个 额外 的 代码 初始 化 选 
择 器 来 实现 两 个 重 伙 部 分 之 间 的 切换 。 那 么 这 种 做 法 是 一 种 解决 方案 吗 ? 

考察 下 面 的 情形 ， 代 码 所 二 的 存储 规模 如 下 所 二: 

。 在 普通 模式 下 运行 所 大 要 的 运行 时 存储 容量 : 12KiB 

。 在 传统 模式 下 运行 所 需要 的 运行 时 存储 容量 : 10KiB 

。 重 委 选择 器 的 代码 规模 : ROM 中 的 1KiB 

e 普通 模式 下 的 代码 规模 : ROM 中 的 10KiB 

。 传统 模式 下 的 代码 规模 : ROM 中 的 9KiB 

所 占用 的 闪存 总 和 为 1 +10 +9 =20KiB (上 面 的 方案 需要 15KiB)。 然 而 ， 这 对 于 1MiB 的 
闪存 来 说 并 不 是 个 问题 。 

但 是 开启 速度 如 何 呢 ? -: 些 工程 师 很 关心 这 种 方法 是 否 会 让 软件 的 开启 速度 变 慢 。 从 实验 
结果 中 可 以 看 到 这 种 方法 实际 上 使 得 开启 速度 变 快 了 。 

在 普通 模式 下 只 需要 3. 6ms 就 可 以 将 11KiB 的 数据 传送 完毕 ， 在 此 加 入 了 选择 代码 ， 它 们 的 
执行 时 间 可 以 忽略 不 计 ， 因 此 总 的 时 间 为 11 x 1024 x8biv25 x 10?s。 

在 传统 模式 下 ， 开 启 速 度 只 需要 3.3ms(10 x 1024 x8bit/25 x 10"s)。 

总 之 ， 这 两 种 模式 下 的 开启 时 间 及 在 RAM 上 的 运行 时 间 在 使 用 重要 技术 后 都 有 所 优化 ， 尽 
管 需 要 更 多 的 软件 空间 和 ROM 空间 。 

没有 MMU 对 存储 器 进行 管理 ， 对 于 代码 体积 大 于 RAM 本 身 的 这 种 情况 ， 其 处 理 方法 很 直 
观 : 编写 一 个 和 选择 器 一 样 简单 的 重合 模块 载 和 程序， 在 两 个 执行 文件 间 进 行 切换 ,或 者 设计 一 
个 更 复杂 的 重 秋 文件 ， 其 自身 就 包含 一 部 分 选择 和 载 入 代码 ， 来 自行 选择 和 载 人 下 一 个 重生 
模块 。 

然而 ， 对 于 现代 内 人 式 处 理 器 来 讲 还 有 另外 一 个 选择 ， 使 用 一 个 先进 的 操作 系统 ， 这 个 系统 
可 以 模仿 MMU 的 部 分 功能 。: -个 很 著名 的 例子 就 是 uCLinux， 这 是 一 种 针对 不 含 MMU 的 处 理 器 
的 Linux， 该 操作 系统 中 包含 很 多 标准 的 已 编译 Linux 代码 ， 包 括 内 存 文件 系统 、 现 场 执行 〈exe- 
cute-in-place，XIP) 驱动 器 等 。 

最 后 一 点 : 这 种 重 荆 方法 也 适用 于 FPCA (现场 可 编程 门 阵列 ) 技术 。 这 种 设备 可 以 通过 重 
新 编程 完全 改变 它们 的 固件 功能 ， 顾 名 思 义 ， 它 们 可 以 在 任何 地 方 (其 至 现场 ) 对 设备 进行 编 
程 。 我 们 可 以 考虑 时 下 比较 热门 的 一 个 概念 软件 定义 的 无 线 电 (Software Defined Radio， 
SDR) ， 其 含义 是 指 采 用 通用 硬件 来 实现 多 种 数字 无 线 电 处 理 。 这 种 设计 思想 允许 设备 载 人 多 种 
译 码 结构 中 的 一 个 来 匹配 当前 频率 下 的 通信 模式 。 一 个 前 端 选 择 器 监控 当前 的 无 线 信号 频率 ， 
并 且 决 定 哪 种 调制 方法 适用 于 当前 频率 ， 之 后 把 相应 的 固件 载 人 到 FPGA 中 来 解 调和 译 码 当前 信 
号 。 由 此 看 来 ， 在 未 来 几 年 的 移动 电话 中 ， 重 个 技术 将 会 有 用 武之 地 。 


7.8 嵌入 式 系 统 中 的 存储 
大 部 分 计算 机 体系 结构 教材 都 会 介绍 大 型 计算 机 的 存储 系统 ， 甚 至 包括 共享 存储 的 并 行 处 





325] 理 机 ， 但 是 他 们 忽略 了 对 嵌入 式 系统 的 讨论 。 





典 入 式 系统 与 台式 计算 机 在 存储 器 使 用 上 有 很 多 不 一 样 的 地 方 。 尽 管 庶 和 人 式 系统 应 用 于 不 
同方 面 ， 外 形 大 小 各 异 ， 但 现代 财 人 式 系统 中 的 大 规模 存储 通常 使 用 闪存 ， 而 在 台式 计算 机 则 使 
用 硬盘 。 
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在 这 里 ， 我 们 来 观察 一 个 典型 的 嵌入 式 系统 ， 它 基于 ARM9 并 且 运 行 嵌 人 式 Linux 操作 系 
统 。 我 们 所 提供 的 这 种 结 愧 在 中 等 规模 的 髓 入 式 系 统 中 非常 典型 。 我 们 也 可 以 设计 一 个 更 小 规 
模 的 系统 ， 其 最 大 RAM 约 为 100Kibit， 这 种 系统 能 够 运行 -个 单片机 实时 操作 系统 (在 一 个 可 
执行 模块 中 包含 一 个 操作 系统 、 应 用 程序 和 引导 程序 ); 我 们 还 可 以 构建 一 个 类 似 PC 的 较 大 系 
统 ， 其 中 采用 小 型 x86 处 理 器 ， 相 当 于 精简 的 低 功 耗 PC。 

如 图 7-16 所 示 是 一 个 中 等 规模 的 系统 〈 这 是 现实 中 存在 的 ， 包 含 -- 个 三 星 S3C2410) ， 非 易 
失 的 程序 代码 存放 在 闪存 中 ， 易 失 的 运行 代码 和 数据 存放 在 SDRAM 中 。 内 存 为 16 位 宽 ， 
SDRAM 则 为 32 位 (这 里 使 用 了 两 个 16 位 宽 的 SDRAM ) 。 
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图 7-16 基于 ARM 的 拱 入 式 系 统 的 存储 配置 示 意图 ， 并 给 二 了 系统 正常 操作 过 程 中 闪存 和 SDRAM 的 内 容 


在 图 7-16 的 靠 下 面部 分 可 以 看 到 每 个 类 型 的 存储 器 在 执行 过 程 中 所 包含 的 内 容 ， 而 我 们 仪 
考虑 在 三 个 阶段 的 操作 过 程 中 的 存储 器 内 容 。 


7. 8. 1 非 易 失 存 储 器 


在 处 理 器 断 电 期 间 ， 只 有 闪存 中 的 内 容 能 够 得 到 保存 ，SDRAM 基本 上 是 空白 的 。 当 ARM 处 
理 器 上 电 或 者 复位 后 ，CPU 就 开始 载 人 指令 ， 并 从 0x0000 0000 地 址 处 执行 一 段 程序 。 在 这 种 情 
况 下 ， 如 大 部 分 租 入 式 系统 一 样 ， 闪 存 被 分 配 到 上 面 这 个 起 始 地 址 。 因 此 ， 闪 存 中 的 第 一 条 指令 
将 在 复位 后 立即 执行 。 

CPU 将 直接 从 闪存 .上 读 取 指 令 和 数据 。 引 导 加 载 程序 需要 完成 一 些 重要 任务 ， 例 如 重新 设置 处 
理 器 状态 ， 关 掉 看 门 狗 定时 器 (7. 11 节 )， 并 且 复 位 SDRAM。 这 也 是 为 什么 大 部 分 的 嵌入 式 开发 者 
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需要 学 习 一 些 SDRAM 知识 的 原因 ， 我 们 需要 在 引导 加 载 程序 执行 过 程 中 配置 这 些 存储 器 。 

有 很 多 免费 的 引导 加 载 程序 可 以 选择 ， 比 如 流行 的 U-boot。 很 少 看 见 设计 者 自己 编写 为 实现 
特定 功能 而 定制 的 引导 加 载 程序 。 引 导 加 载 程序 可 以 完成 的 功能 如 下 : 

。 完成 上 电 自 检 (POST) 。 

。 复位 存储 器 ， 特 别 是 SDRAM。 

。 设置 CPU 寄存 器 ， 比 如 用 于 时 钟 分 频 、 功 耗 控 制 、MMU 、cache 等 。 

。 发 出 一 条 信息 给 串口 、LCD 显示 屏 等 。 

。 随机 等 待 用 户 干 预 (比如 说 “ 按 任意 键 进 入 启动 菜单 ， 或 者 等 待 5 秒 后 继续 ”等 ) 。 

。 将 内 核 或 者 内 存盘 〈ramdisk) 从 闪存 载 人 SDRAM 。 
跳 转 到 起 始 地 址 上 执行 代码 〈 比 如 内 核 ) 。 
检测 内 存 。 
擦 写 内 存 上 的 块 。 
将 新 的 内 核 或 者 RAM 磁盘 载 人 SDRAM。 

。 将 SDRAM 中 一 个 内 核 或 者 RAM 磁盘 写 入 闪存 。 

在 我 们 所 考虑 的 系统 中 ， 有 三 项 需要 载 人 闪存 。 第 一 个 ,在 闪存 的 “底部 ”， 也 就 是 0x0000 
0000 地 址 处 ， 存 放 引 导 加 载 程序 。 第 二 项 是 经 过 压缩 的 RAM 磁盘 ， 最 后 一 项 是 操作 系统 内 核 。 

对 解 人 式 Linux 操作 系统 也 进行 划分 ， 其 中 RAM 磁盘 (代替 台式 系统 中 的 硬盘 ) 包含 了 应 用 软件 
和 数据 ， 而 内 核 包含 了 操作 系统 最 基本 的 执行 模块 。RAM 磁盘 实际 上 是 一 个 文件 系统 ， 包 含 了 各 种 文 
件 ， 有 些 是 可 执行 的 ， 所 有 这 些 文件 以 gzip 形式 进行 压缩 ， 一 般 会 在 1MB 或 2MB 这 个 数量 级 上 。 

内 核 是 操作 系统 的 核心 部 分 ， 包含 了 所 有 的 系统 级 功能 、 内 置 的 驱动 、 底 层 的 访 存 程序 等 。 
内 核 程序 是 不 可 改变 的 ， 即 使 由 于 新 的 应 用 软件 出 现 而 有 可 能 更 新 RAM 磁盘 。 在 租 入 式 Linux 
中 ， 引 导 加 载 程序 最 先 执行 内 核 以 开始 系统 运行 ， 然而， 内 核 和 RAM 磁盘 必须 放置 在 正确 的 存 
储 区 域 。 让 我 们 看 一 下 引导 的 具体 步 又: 

1. 系统 上 电 。 

2. 引导 加 载 程序 启动 ， 设 置 系统 并 且 给 LCD 或 者 串口 发 送 一 个 指令 。 

3. 引导 加 载 程序 等 待 用 户 的 输入 或 者 等 待 没 有 收 到 任何 输入 后 的 超时 指令 。 

4. 引导 加 载 程序 从 闪存 中 复制 一 份 内核 并 放 人 SDRAM 中 的 某 一 区 域 (这 等 同 于 对 内 核 的 编 
译 时 设置 ) 。 

5. 然后 以 类 似 的 方式 复制 RAM 磁盘 。 

6. 引导 加 载 程序 执行 一 条 跳 转 指 令 ， 使 此 时 的 指令 地 址 变 为 内 核 的 起 始 地 址 ， 从 而 将 控制 
权 交 给 内 核 。 

现在 ， 内 核 可 以 运行 了 。 


7. 8.2 易 失 存储 器 


内 核 开 始 执行 ， 会 在 屏幕 上 打印 一 行 信息 并 且 解 压 它 自己 〈 内 核 基 本 上 都 是 压缩 过 的 ， 只 
有 在 开始 的 一 小 部 分 代码 未 压缩 ， 负 责 解 压缩 并 且 执行 后 面 的 程序 ) 。 

然后 ， 按 照 引导 参数 ， 内 核 将 在 SDRAM 的 特殊 位 置 寻找 一 个 RAM 磁盘 。 找 到 后 ， 将 RAM 
磁盘 解压 到 SDRAM 的 另 一 个 位 置 上 ， 并 且 把 它 “ 安 装 ” 成 一 个 磁盘 镜像 。 然 后 按照 Linux 常规 
启动 规则 开始 执行 这 个 镜像 中 的 应 用 代码 ， 即 一 个 初始 化 程序 。 

之 前 经 过 压缩 的 内 核 程序 和 解压 缩 程序 会 从 SDRAM 中 被 删除 以 释放 空间 。 压 缩 过 的 RAM 
磁盘 也 会 从 SDRAM 中 被 删 去 ， 因 为 它 现在 已 经 在 存储 器 中 了 。 

SDRAM 的 剩余 空间 将 会 存放 代码 执行 过 程 中 所 产生 的 临时 变量 和 数据 。 如 图 7-17 所 示 。 
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图 7-17 舱 入 式 ARM 平台 上 存储 器 内 容 ， 包 括 闪 存 和 SDRAM， 
分 别 是 在 掉 电 阶段 、 引 导 阶段 和 嵌入 式 Linux 运行 阶段 


一 个 很 小 的 姐 入 式 处 理 器 中 的 存储 器 结构 ， 比 如 位 的 MSP430xl ， 由 于 缺少 外 部 的 数据 或 地 
址 总 线 ， 具 有 较 低 的 可 配置 性 。 然 而 ， 这 个 处 理 器 也 有 很 多 外 设 和 大 小 不 一 的 存储 器 可 供 选择 
( 框 7.4 提供 了 更 多 信息 ) 。 


7. 8.3 其 他 存储 器 


很 多 设备 都 有 一 个 并 行 接口 ， 使 其 能 够 加 入 到 CPU 存储 映射 中 。 其 中 包括 一 些 外 置 设备 ， 
比如 存储 器 、 以 太 网 芯片 和 硬盘 接口 ， 也 有 一 些 内 部 设备 的 接口 ， 比 如 SoC 上 集成 的 外 设 。 

然而 ， 还 有 另外 -- 类 常见 的 实体 也 可 以 加 入 到 存储 映射 中 ， 这 就 是 系统 和 外 设 控制 寄存 器 。 
框 7.4 介绍 了 MSP430 的 存储 映射 (在 存储 映射 的 底部 ， 从 特殊 功能 寄存 器 开始 ， 接 着 是 外 设 控 
制 寄 存 器 ) 。 事 实 上 ， 如 果 返 回头 去 看 ， 查 看 框 7. 2 中 给 出 的 MSP430 控制 管 脚 描述 ， 可 以 发 现 
一 些 我 们 在 这 里 所 讲 的 寄存 器 。 
MSP430 中 的 存储 映射 

MSP430 是 一 个 典型 的 拥有 大 量 内 部 功能 的 小 型 低 功 耗 微 控 制 器 ， 这 些 功能 大 部 分 通过 映射 到 存储 空 
间 上 的 片上 集成 外 设 实现 。 

如 下 图 所 示 是 MSP430xlxxx 系列 处 理 器 的 存储 映射 图 ， 底 部 为 0 地 址 。 图 中 的 不 同 部 分 有 不 同 的 宽度 ， 
有 些 是 8 位 宽 而 有 些 是 16 位 宽 。 因 为 该 器 件 中 存在 处 理 不 同 宽度 数据 的 外 设 ， 因 此 TI 就 按 读 写 数据 宽度 
划分 存储 映射 空间 。 例 如 ， 设 置 寄存 器 和 数据 寄存 器 是 一 个 8 位 的 外 设 ， 位 于 地 址 0x10 和 0xFF 之 间 。 
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在 图 的 底部 是 特 珠 功能 寄存 器 ， 用 二 控制 整个 系统 、 处 理 器 以 及 其 他 部 分 (如 功 耗 和 时 钟 )。 处 理 器 
的 中 新 向 量 表 在 映 半 的 顶部， 这 意味 着 一 旦 设备 重启 ， 将 从 这 部 分 读 取 指 令 开始 执行 。 出 于 这 个 原因 ， 包 
含 引导 程序 的 非 易 失 存储 器 一 般 都 会 放置 在 存储 映射 的 顶部 。RAM 位 于 较 低位 置 。 

有 起 的 是 ，T1 提供 了 很 多 种 类 的 MSP 设备 供 选 择 ， 每 个 设备 都 有 不 同 的 可 选 特征、 外 设 以 及 未 同 规模 
的 闪存 /ROM 和 内 部 RAM、 它 们 的 存储 映射 相同 ，RAM 的 上 边界 和 
ROM 的 下 边界 除外 ,它们 的 位 置 视 各 自 的 具体 规模 而 定 。 

所 有 这 些 寄存 器 ， 在 MSP430 数据 手册 中 都 有 详细 说 明 ， 它 
们 都 可 以 在 存储 映射 中 找到 ， 这 也 意味 着 它们 将 占据 具体 的 处 理 
器 存储 器 地 址 。 对 于 框 7. 2 中 提 到 的 特定 寄存 器 来 说 ， 这 些 寄 存 
器 可 以 在 右面 这 些 地 址 中 找到 。 

这 样 ， 通 过 对 这 些 地 址 进行 读 写 就 可 以 控制 或 者 查询 这 些 寄存 器 。 

对 于 我 们 查看 的 这 几 个 寄存 器 ， 返 回头 去 看 一 下 存储 映射 图 ， 可 以 发 现 它们 在 8 位 外 设 模块 
部 分 ， 这 正 是 我 们 所 期 待 的 ， 因 为 端口 〈 以 及 相应 的 控制 寄存 器 ) 宽度 为 8 位 。 

如 采用 C 语言 进行 编程 ， 那 么 读 写 这 些 寄存 器 最 安全 的 代码 如 下 : 


unsigned char read_result; 

















void *addr; 
read_result = *((volatile unsigned char *) addr); /7/ 读 
*({(volatile unsigneqd char *) addr) = OxFF; // 写 


为 什么 要 使 用 volatile 关键 字 ? 

许多 编译 器 在 进行 编译 时 如 果 发 现在 一 个 程序 中 有 对 同一 个 地 址 进行 连续 两 次 写 和 操作 时 ， 
会 删除 掉 第 一 个 写 入 以 提高 程序 效率 。 例 如 ， 如 果 一 个 程序 想 要 在 X 位 置 上 存储 一 个 值 ， 然 后 
在 几 个 时 钟 周 期 后 再 在 相同 位 置 上 写 入 ， 且 两 个 写 入 操作 之 间 没 有 读 操作 ， 显 然 第 -个 写 人 操 
作 是 浪费 时 间 一 一 不 管 第 一 次 写 人 了 什么 内 容 都 会 被 后 面 的 写 操作 所 准 盖 。 

对 RAM 进行 写 人 时 是 这 样 的 。 然 而 ， 有 些 情况 下 ,我 们 需要 合法 地 对 同一 地 址 进行 重复 写 
和 人 操作， 比如 在 一 个 闪存 上 改写 算法 或 者 写 人 地 址 对 应 的 是 一 个 有 存储 映射 的 寄存 器 。 

这 里 的 一 个 例子 就 是 串口 单元 的 输出 数据 寄存 器 。 一 个 程序 员 想 要 设置 好 串口 然后 连续 输 
出 2 学 市 的 数据 ， 这 就 宕 要 一 个 字 节 接 一 个 字 节 地 写 和 人 有 存储 映射 的 串口 输出 寄存 器 。 

这 时 volatile 关键 字 会 告诉 编译 器 这 个 写 人 是 “ 易 失 的 ” ， 也 就 是 说 需要 刷新 。 这 样 编译 器 会 
让 这 个 连续 写 入 完成 ， 不 删 掉 前 一 个 写 入 。 

编译 器 并 不 是 只 能 发 现 连续 写 操作 ， 也 可 以 发 现 连 续 读 操 作 ， 并 且 尽 可 能 地 优化 成 一 个 读 操作 。 

连续 读 出 现在 代码 中 也 很 正常 ， 事 实 上 ， 编 译 器 会 插入 读 操作 作为 泄漏 代码 的 - -部 分 
(3.4.4 节 )。 然 而 ， 对 于 程序 设计 者 而 言 这 部 分 代码 并 非 设计 初衷 。 

当然 ， 正 如 上 文 所 述 ， 连 续 读 和 连续 写 一 样 必要 。 例 如 ， 在 串口 输入 寄存 器 中 读 出 … 组 连续 
的 数据 ， 或 者 轮 询 串口 状态 寄存 器 以 检测 发 送 缓存 是 否 为 室 。 以 上 这 些 情 况 ， 正 如 连续 写 人 一 
样 ，volatile 关键 字 会 告诉 编译 器 这 种 连续 读 是 故意 设计 的 ， 不 可 优化 掉 。 

与 上 面 类 似 ， 也 可 以 使 用 volatile 定义 一 个 易 失 性 变量 类 型 ; 


volatile unsigned char * pointer; 





7.9 测试 和 验证 
测试 和 验证 会 宅 益 所 有 的 章节 ， 旨 在 解决 计算 中 存在 的 实际 问题 ， 尤 其 是 在 嵌 人 式 计 算 中 。 引 
和 人 测试 和 验证 的 主要 原因 是 计算 性 能 的 提高 使 得 处 理 器 变 得 越 来 越 复 条 和 庞大 。 但 这 也 会 让 处 理 器 
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的 设计 和 制造 变 得 更 困难 。 另 外 ， 测 试 和 验证 会 导致 需要 在 设备 中 加 入 测试 支持 和 错误 控制 机 制 。 
7.9.1 集成 电路 设计 和 制造 问题 


在 20 世纪 70 年 代 ， 工程师 一 个 人 不 可 能 了 解 和 检测 一 个 完整 的 现代 处 理 器 。 虽 然 良 好 的 团 
队 合 作 和 卓越 的 设计 工具 大 量 替 代 了 手工 检测 ， 但 是 在 集成 电路 (IC) 设计 上 依然 容易 出 现 错 
误 。 事 实 上 ， 我 们 在 处 理 器 第 一 版 发 布 时 不 能 保证 完全 找 不 到 硬件 设计 错误 。 大 部 分 错误 只 是 小 
它们 可 以 简单 地 通过 软件 设置 来 修复 ， 比 如 当 串 口 工作 时 ， 

一 条 NOP 指令 。 而 其 他 的 错误 可 能 是 更 严重 的 。 TOO 

Intel 80486 处 理 器 的 FDIV 错误 是 一 个 比较 著名 
的 设计 错误 ， 幸 亏 发 现 它 的 时 候 卖 出 和 安装 进 计算 机 
的 处 理 器 只 有 几 千 个 而 不 是 上 百 万 个 。 这 虽然 只 是 一 蝴 
个 百 万 分 之 一 的 错误 ,可 以 保证 在 几 个 月 中 不 被 检查 
出 来 ,但 是 会 给 公司 在 经 济 上 和 公共 关系 上 带 来 沉重 
的 代价 。 

制造 过 程 中 的 错误 更 为 常见 。 粗 略 对 比 一 下 现在 
顶级 PC 中 的 PCB 板 和 在 20 世纪 80 年 代 所 设计 的 同 
类 产品 ,不 仅 可 以 看 到 在 硅 片 中 集成 各 种 分 立 部 件 是 ”图 7-18 ARM 处 理 器 底面 的 球 棚 阵列 
一 个 循序 渐进 、 不 断 整合 的 过 程 ， 还 能 发 现 现 在 的 电 (器 件 尺 寸 为 14mm x 14mm) 
路 板 设计 带 有 大 量 的 管 脚 和 球 栅 阵 列 。 如 图 7-18 所 
示 的 就 是 三 星 S3C2410 ARM 处 理 器 底面 的 BGA (了 Ball Grid Aray， 球 机 阵列 ) 照片 。 可 以 看 到 当 
加 热 焊锡 到 焊接 相对 应 的 PCB 板 表面 焊 盘 时 ， 这 些小 的 焊接 锡 点 就 会 熔化 。 

BGA 通过 很 紧凑 有 效 的 方法 连接 IC 和 PCB， 但 这 使 得 调试 和 修复 变 得 困难 了 。 基 于 之 
前 几 代 的 IC 封装 技术 ， 可 以 对 在 顶部 可 见 的 外 部 成 驴 连 接点 进行 探测 。 而 BGA 技术 将 连接 
点 隐藏 它 的 底层 ， 几 乎 只 能 通过 X 光 才 能 检查 已 安置 在 PCB 上 的 每 一 个 连接 点 。 图 7-19 展 
示 的 就 是 通过 X 光 所 看 到 的 一 个 封装 效果 ， 在 这 里 IC 的 内 部 结构 和 IC 下 面 PCB 的 细节 都 
是 可 见 的 。 





图 7-19 IC (方形 扁平 封装 ) 的 X 光 照片 ， 可 以 看 到 IC 封装 、 引 线 框 和 内 部 硅 片 





216 . 第 7 章 实用 炭 入 式 CPU 


诸多 的 设计 功能 集成 在 单个 硅 片 设备 上 ， 例 如 在 现代 个 人 计算 机 上 的 SuperIo 芯片 。 因 此 需 
要 集成 原 有 设备 使 用 的 外 部 接口 ， 例 如 要 连接 类 似 硬盘 、 光 盘 、 软 盘 驱 动 器 之 类 的 存储 媒介 ， 这 
也 是 影响 器 件 大 小 的 主要 因素 。 使 用 多 管 脚 的 设计 已 经 出 现 大 概 30 年 了 。 而 USB 、Firewire 和 
SATA 〈 串 行 ATA) 等 现代 接口 技术 使 用 较 少 的 管 脚 绝 非 偶然 ， 这 样 导 致 大 多 数 IO ji 
传统 的 接口 而 非 支持 这 种 现代 接口 。 因 此 看 起 来 旧 的 ISA、EISA、IDE、SCSI 和 软盘 等 接口 会 
终 消 失 ， 从 而 产生 更 小 的 SauperIO2 芯片 。 

现在 回 过 头 看 测试 和 验证 ， 具 有 大 量 IO 连接 的 芯片 测试 主要 存在 两 个 问题 。 

首先 ， 生产 IC 时 一 般 需 要 经 过 测试 。 有 些 制 造 商 倾向 于 只 使 用 批 处 理 测试 ， 而 有 些 对 于 错 
误 零 容忍 ， 会 测试 每 个 器 件 。 这 些 测试 需要 覆盖 两 个 主要 的 制造 步骤 生产 硅 芯 片 和 在 其 上 附加 
管 脚 / 锡 球 。 

其 次 ， 还 有 一 小 概率 事件 一 一 每 个 焊接 点 是 否 工 作 ， 电 路 板 制造 错误 率 大 约 与 焊接 的 管 脚 
数 成 正比 。 因 此 拥有 大 量 VO 管 脚 的 设备 就 会 更 容易 出 问题 ， 需 要 一 种 验证 方法 判断 这 些 管 脚 焊 
接点 是 否 正确 。 

为 清晰 起 见 ， 我 们 将 这 些 技 术 分 为 两 类 ， 并 在 下 面 分 小 节 讨 论 计 算 机 处 理 器 测试 中 所 用 的 
解决 方法 。 

1. 设备 制造 测试 一 一 用 于 在 设备 离开 半导体 制造 厂 前 确保 集成 电路 能 正常 工作 。 更 多 细节 
参考 以 下 章节 

e 7.9.2 节 ，BIST (了 Built-In Self-Test， 内 置 自 测 ) 

e 7.9.3 节 ，JTAG (Joint Test Action Group ， 联 合 测 试行 动 小 组 ) 

2. 运行 时 测试 和 管理 一 一 这 是 为 了 保证 最 终 制造 的 系统 能 正常 工作 (涉及 之 前 的 两 种 技术 : 
BIST 和 JTAG) 。 将 在 以 下 章节 中 探讨 : 

e 7. 10 节 ，EDAC (Error Detection and Correction ， 错 误 检测 与 纠正 ) 

。 7.11 节 ， 看 门 狗 定时 器 与 复位 监测 


7.9.2 内 置 自 测 (BIST) 


BIST 是 特定 于 器 件 的 片上 硬件 资源 ， ER 人 当 硅 圆 
片 离开 硅 蚀 刻 生 产 线 或 者 单个 IC 已 经 被 封装 待 出 售 时 ， 测 试 机 
器 会 使 用 BIST。 有 时 候 ， 人 允许 客 户 访问 内 部 的 BIST 单元 来 验 
证 自己 的 设计 。 : 

BIST 单元 可 以 在 某 种 程度 上 隔离 待 测试 的 IC 部 分 ， 向 该 ~ 













, 省 ， 
待 测试 单元 











部 分 输入 已 知 值 和 状态 ， 然 后 检查 这 部 分 输出 是 否 正确 。 这 些 一 > 
可 以 概略 地 通过 图 7-20 表示 ， 在 测试 模式 下 数据 通过 多 路 选 通 
器 从 BIST 单元 出 来 或 者 进入 BIST 单元 。 

BIST 还 可 以 用 于 CPU 测试 各 种 外 设 单元 的 内 部 程序 。 这 
种 情况 下 往往 需要 某 种 方法 验证 外 设 单元 的 功能 正确 性 ， 例 如 

















图 7-20 内置 自 测 单元 可 以 隔离 


一 个 回路 。 BIST 单元 可 以 完成 这 个 功能 ， 如 图 7-21 所 示 ， 待 测 器 件 的 输入 /输出 ， 
其 中 在 测试 模式 下 多 路 选 通 器 将 模拟 输出 信号 反馈 到 外 设 输入 使 得 在 给 定 输入 下 验证 
端口 。 输出 的 正确 性 





昌 ，Superl0 是 一 种 大 的 IC 的 名 字 ， 这 种 IC 通过 PC 母 板 提供 胶 连 逻辑 和 系统 功能 且 围 绕 CPU 工作 ， 例 如 ， 内 存 驱 
动 器 、USB 接口 、 并 口 以 及 串口 等 。 











反馈 外 部 信号 意味 着 制造 商 可 以 生成 一 个 测试 序列 ， 通 过 模拟 输出 驱动 器 (例如 EIA232 串 
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口 包括 一 个 负电 压 信 号 电 平 ) 输出 ， 然 后 通过 模拟 输入 ， 从 而 验证 串口 硬件 、 输 出 驱动 或 缓冲 


以 及 输入 检测 器 。 
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图 7-21 内 署 自 测 单元 可 以 用 于 测试 或 设置 来 往 于 某 单元 外 部 管 脚 及 其 内 部 逻辑 之 间 的 输入 /输出 信和 号 
片上 测试 方法 能 简单 、 方 便 地 测试 IC 上 所 有 逻辑 和 许多 模拟 单元 ， 但 是 这 会 增加 硅 片 面积 


和 复杂 度 。 这 来 源 于 三 个 部 分 的 开销 : 
1. BIST 单元 本 身 。 





2. 每 个 被 测 单元 和 IO 端口 需要 多 路 选 通 器 或 类 似 的 开关 电路 。 


3. 从 BIST 单元 到 每 个 选 通 器 的 开关 和 数据 连 线 。 


BIST 单元 并 不 是 很 复杂 ， 容 易 扩展 到 更 大 规模 的 设计 中 。 对 于 大 多 数 逻 辑 实 体 来 说 ， 增 加 
输入 和 输出 选 通 器 并 不 会 明显 增加 逻辑 大 小 。 然 而 ， 从 BIST 到 每 个 测试 点 的 数据 和 开关 是 一 个 
问题 。 测 试 数据 通路 时 可 能 需要 操作 在 同一 个 时 钟 频率 上 ， 并 需要 一 组 并 行 线路 连接 输入 和 和 输 
出 总 线 。 这 些 线路 (或 者 硅 片 IC 上 的 金属 /多 唱 硅 通道 ) 必须 从 芯片 的 各 个 部 分 连接 到 集中 式 
的 BIST 单元 上 。 这 种 布线 使 得 IC 设计 非常 困难 旦 显著 增加 了 代价 。 将 BIST 电路 化 分 成 许多 更 
小 的 单元 有 助 于 解决 该 问题 ， 但 是 ，IC 设计 复杂 性 增加 并 且 BIST 复杂 性 也 同时 增加 的 问题 依然 


存在 。 


一 个 解决 因 规模 产生 的 问题 的 方法 是 使 用 一 系列 的 “扫描 通路 ”， 其 中 多 路 选 通 器 之 间 的 连 
接 是 串 行 的 ， 而 多 路 选 通 器 本 身 只 是 简单 的 并 行 / 串 行 的 寄存 器 ， 如 图 7-22 所 示 。 
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图 7-22 一 个 待 测试 的 扫描 链 ， 利 用 串 - 并 转换 逻辑 隔离 被 测 部 分 
可 以 看 到 扫描 通路 控制 单元 和 所 有 测试 点 之 间 通 过 一 条 链 互联 ， 称 为 扫描 链 。 其 长 度 取决 


于 该 链 上 所 有 串 行 /并 行 寄存 器 的 位 数量 。 扫 描 链 本 质 上 是 一 条 高 速 串 行 总 线 ， 包 括 时 钟 、 数 据 
和 控制 线 。 最 重要 的 是 ， 很 容易 环绕 IC 布线， 而 BIST 单元 〈 或 扫描 通路 控制 器 ) 可 以 放置 在 芯 
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片 外 围 而 不 是 中 间 。 
7.9.3 联合 测试 行动 小 组 (JTAG) 


联合 测试 行动 小 组 (Joint Test Action Group，JTAG) 是 IEEEF 的 一 个 工作 组 ， 目 前 已 经 发 展 
为 IEEE 标准 1149， 现 已 在 各 种 逻辑 器 件 中 广泛 用 于 扫描 链 控制 单元 。IEEE1149 最 初 是 用 于 边界 
扫描 测试 ， 边 界 扫描 测试 是 扫描 路 径 的 一 种 ， 用 以 链接 器 件 的 外 部 输入 和 输出 ， 而 不 是 用 于 内 部 
单元 的 0。 

事实 上 ， 近 些 年 来 遵循 JTAG 的 测试 单元 已 经 集成 了 很 多 实质 性 的 其 他 功能 ， 并 且 目 前 包含 
了 除 边 界 扫描 路 径 之 外 的 各 种 内 部 存 取 功 能 。 在 很 多 场合 ，JTAG 是 硬件 调试 器 存 取 目 标 处 理 器 
的 方法 。 一 些 很 先进 的 处 理 器 既 有 测试 用 JTAG 单元 又 有 内 置 仿真 器 (in- circuit emulator，ICE) 
用 JTAG 单元 ， 后 者 通常 用 于 调试 。 

JTAG 定义 了 一 个 标准 测试 接口 ， 包 括 以 下 器 件 上 的 外 部 信号; 

1.TCK (测试 时 钟 ) 

2. TMS (测试 模式 选择 ) 

3.TDI (测试 数据 输入 ) 

4. TDO (测试 数据 输出 ) 

5. TRST (可 选 的 测试 复位 ) 

实现 ICE 功能 的 JTAG 单元 ， 通 常会 再 有 4 位 或 者 8 位 的 输入 /输出 信号 来 组 成 一 个 高 速 总 线 
以 快速 传送 测试 数据 。 

我 们 再 来 看 最 原始 的 JTAG， 图 7-23 给 出 了 JTAG 在 类 ARM 处 理 器 中 的 硬件 实现 。 
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图 7-23 与 JTAG 相关 的 主要 寄存 器 框图 以 及 ARM 处 理 器 中 串 行 数据 寄存 器 互 连 举例 


JTAG 电路 一 一 并 不 是 完全 按照 图 7-23 的 比例 实现 位 于 图 中 CPU 内 部 逻辑 的 下 面 ， 且 作 
为 边界 扫描 与 这 个 模块 的 所 有 输入 /输出 相连 。 使 用 5 个 JTAG 管 脚 ， 所 有 连接 到 CPU 内 部 逻辑 
上 的 输入 、 输 出 和 双向 管 脚 都 可 以 被 查询 和 根据 需要 作 适 当 调整 。 

JTAG 在 许多 方面 都 是 很 有 用 的 ， 比 如 跟踪 连接 和 焊接 问题 ( 见 框 7.5)。 另 外 一 个 常见 应 用 
(这 并 不 是 JTAG 设计 者 的 初始 考虑 ) 就 是 向 嵌 人 式 系统 的 闪存 中 下 载 引导 程 序 ， 见 框 7. 6。 
采用 JTAG 寻找 焊接 错误 

想象 一 下 你 拥有 一 块 新 出 厂 的 计算 机 主板 ， 一 切 看 上 去 都 提 好 : 没有 过 电流 错误 ， 复位 和 时 钟 信号 良 
好 ， 但 是 主板 就 是 不 能 工作 。 是 焊接 错误 吗 ? 

使 用 JTAG 连接 CPU， 测 试 人 员 可 以 对 该 器 件 设置 给 定数 据 。 然 后 ， 使 用 万 用 表 测试 PCB 周边 的 信号 
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输出 是 否 正 确 。 他 可 能 设置 地 址 总 线 为 0xAAAA (二 进 制 为 1010101010101010) ， 这 样 可 以 测试 这 些 管 脚 有 
没有 互相 短路 ， 然 后 设置 为 0x5555 (二 进 制 为 0101010101010101) ， 这 样 每 个 管 脚 上 的 信号 都 翻转 ， 从 而 
可 以 发 现 不 能 正常 驱动 高 或 低 电 平 的 管 脚 。 检 查 管 脚 的 这 两 个 状态 是 必要 的 ， 因 为 PCB 上 有 些 信号 不 驱动 
时 为 高 ， 有 些 则 会 为 低 。 

而 后 ， 测 试 人 员 可 能 在 PCB 中 设置 已 知 值 到 各 测试 点 上 ， 然 后 通过 JTAG 读 回 CPU 上 所 有 输入 管 脚 的 
状态 。 然 后 更 换 为 其 他 值 ， 比 如 这 些 值 的 反 转 ， 并 重复 这 个 步骤 。 

这 样 ，CPU 上 所 有 的 输入 、 输 出 以 及 双向 信号 都 可 以 被 检测 到 。 如 果 CPU 的 茶 个 管 脚 或 者 锡 球 没有 焊 
接 上 ， 这 样 就 会 看 到 CPU 没有 驱动 这 个 信号 ， 或 者 CPU 输入 错误 。 

但 这 种 方法 有 它 的 局 限 性 。 首 先 ， 测 试 只 能 告诉 我 们 焊接 点 是 否 工作 ， 但 并 不 能 说 明 它 们 的 工作 质量 
(这 可 以 帮 我 们 预知 未 来 可 能 出 现 的 潜在 错误 )。 其 次 ， 有 些 管 脚 无 法 测试 ， 例 如 电源 管 脚 、 模 拟 电 路 [LO 
管 脚 以 及 典型 的 锁 相 环 输入 管 脚 。 最 后 ， 测 试 过 程 太 慢 了 。 

使 用 JTAG 引导 CPU 

大 多 数 基 于 ARM 体系 结构 的 处 理 器 没有 内 部 闪存 ， 一 般 复 位 后 从 0 号 地 址 开始 执行 。 这 个 地 址 和 与 外 
部 闪存 相连 的 片 选 信号 0 (nCS0 表示 低 电 平 有 效 ) 有 关联 。 

因此 外 部 闪存 包含 一 个 引导 加 载 程序 ， 它 是 CPU 在 复位 或 者 启动 时 首先 执行 的 程序 。 该 程序 会 引导 到 
主 应 用 程序 或 者 操作 系统 ， 比 如 用 于 智能 手机 的 移动 Linux 或 用 于 基本 手机 的 Symbian0S 等 。 

在 20 世纪 90 年 代 之 前 ， 引 导 代码 在 EPROM (可 擦 除 可 编程 只 读 存储 器 ) 中 。 只 需 简单 地 插入 一 个 可 
编程 EPROM 设备 ， 开 局 电源 ， 系 统 就 可 以 工作 。 由 于 ROM 被 认为 太 昂贵 、 尺 寸 较 大 ， 因 此 EPROM 已 经 
逐渐 被 可 重复 编程 的 闪存 所 取代 。 

每 个 新 设备 离开 生产 线 时 闪存 里 面 没 有 数据 ， 因 此 需要 将 引导 代码 写 入 到 闪存 中 。 

这 可 通过 基于 JTAG 的 程序 完成 。 这 需要 一 他 外 部 PC 连接 到 CPU JTAG 控制 器 。PC 机 控制 连接 到 CPU 
管 脚 上 的 闪存 ， 驱 动 闪存 将 引导 程序 写 入 。 对 于 闪存 来 说 ， 它 不 知道 是 外 部 PC 在 对 其 进行 控制 ， 而 简单 
地 认为 是 CPU 的 一 种 常规 控制 。 

外 部 PC 通过 JTAG 到 CPU 进行 工作 ， 控 制 CPU 端口 ， 使 用 命令 让 外 部 闪存 擦 除 它 本 身 ， 然 后 按 字 节 
将 引导 程序 从 地 址 0 写 入 闪存 。 

JTAG 的 控制 以 简单 状态 机 实现 。 数 据 在 TCK 的 下 降 沿 从 TDI 管 脚 输入 。TMS 管 脚 用 来 选择 
和 改变 模式 。 有 几 个 模式 可 供 选择 ， 通 常 都 包含 BYPASS 功能 来 跳 过 扫描 链 ， 这 样 可 以 保证 从 
TDI 输入 的 数据 直接 从 TDO 输出 。IDCODE 输出 ID 寄存 器 的 内 容 来 标识 设备 生产 商 。EXTEST 和 
INTEST 通过 扫描 链 输 出 数据 ， 分 别 支持 检测 外 部 和 内 部 的 链接 。 

生产 商 可 以 在 一 个 器 件 内 实现 几 种 扫描 链 。 一 个 典型 例子 就 是 与 CPU 位 于 同一 芯片 中 的 闪 
存 有 一 个 单独 的 扫描 链 ， 独 立 于 主 CPU 的 扫描 链 ， 但 它们 共用 同一 个 JTAG 接口 。 

典型 的 扫描 链 有 数 百 位 长 。 例 如 三 星 的 S3C2410 ARM9 处 理 器 是 272 管 脚 的 BGA， 有 扫描 链 
427 位 ， 其 中 每 位 对 应 的 管 脚 为 : 

。 输入 管 脚 

。 输出 管 脚 

。 双向 管 脚 

。 控制 管 脚 

。 保留 或 者 隐藏 管 脚 

通常 ， 输 出 和 双向 管 脚 都 相应 有 一 个 控制 位 ， 以 确定 输出 缓存 是 关闭 还 是 开启 。 这 些 控制 位 
可 以 是 高 电 平 有 效 或 者 低 电 平 有 效 ， 它 们 和 其 他 控制 JTAG 所 需 的 信息 都 存放 在 边界 扫描 数据 
(BSD 或 BSDL) 文件 中 ,包括 扫描 链 长 度 、 命 令 寄存 器 长 度 、 实 际 命令 字 和 扫描 链 到 管 脚 或 功 
能 的 映射 关系 。 

最 后 ， 应 该 注意 的 是 由 于 JTAG 标准 以 串 行 连接 实现 ， 因 此 可 以 使 单个 JTAG 接口 服务 于 扫 
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描 链 上 的 不 同 设备 。 一 个 外 部 测试 控制 器 可 以 通过 JTAG 接口 寻 址 并 测试 每 一 个 设备 。 

JTAG 是 一 种 非常 高 效 的 硬件 资源 ， 因 此 在 CPU、FPGA 、 显 卡 、 网 络 控制 器 和 配置 器 件 中 应 
用 非常 广泛 。 任 何 还 记得 JTAG 出 现 之 前 调试 数字 硬件 之 困难 的 人 都 会 同意 作者 的 观点 ， 即 
JTAG 技术 虽然 简单 ， 但 使 得 计算 机 设计 者 的 原型 设计 能 力 发 生 了 革命 性 的 变化 。 


7. 10 ”错误 检测 和 纠正 


除了 错误 的 编程 以 外 ， 数 字 系统 中 的 错误 也 可 以 通过 其 他 途径 产生 。 在 糟糕 的 系统 设计 中 ， 
我 们 可 以 看 到 以 下 问题 : 模拟 噪声 干扰 数字 线路 ， 电 源 线 上 产生 电压 急 降 (也 称 为 “ 掉 电 ”， 在 
7.11.1 闻 中 将 会 介绍 ) ， 时 钟 抖动 ( 见 7.4 节 ) 会 造成 在 错误 的 时 间 采 样 数 字 信和 号， 来 自 其 他 设 
备 的 电磁 于 扰 也 会 对 信号 造成 影响 。 

一 个 很 少 被 提 及 的 错误 产生 来 源 是 宇宙 辐射 一 一 所 谓 的 SEU (Single Event Upset， 单 粒子 番 
转 ) 是 指 在 电子 设备 中 由 宇宙 射线 触发 的 随机 位 翻转 。 由 于 地 球 的 大 气 层 会 削弱 宇宙 辐射 和 太 
阳 辐 射 , 因此 SEU 会 随 着 海拔 的 升 高 而 变 得 明显 。 家 用 电子 产品 在 全 球 定位 卫星 所 处 的 高 度 
( 约 20 000km) 上 将 会 完全 不 可 用 。 然 而 ， 在 一 个 较 低 的 地 球 轨道 高 度 (500km) 它们 可 能 每 天 
都 会 遭受 一 些 SEU。 在 高 山上 ， 这 样 的 事件 每 个 月 会 发 生 一 到 两 次 。 在 地 面 ， 可 能 一 年 才 会 发 生 
几 次 。 这 个 错误 源 在 日 常生 活 中 听 起 来 并 不 值得 我 们 担忧 ， 但 是 还 是 会 有 明显 受 此 因素 影响 的 
一 些 设 计 ， 比 如 ， 将 会 被 用 在 空中 交通 控制 系统 、 核 反应 堆 控制 室 或 宇航 员 生 命 维 持 系统 中 的 计 
算 机 。 

幸运 的 是 存在 完善 的 技术 来 解决 以 上 错误 ， 并 且 这 样 的 技术 在 太空 科学 中 是 一 个 活跃 的 研 
究 领 域 。 常 用 的 技术 范围 很 广 ， 从 类 似 的 NASA 决策 到 并 行 运行 5 台 单 独 的 计算 机 ， 并 通过 “多 
数 票 决 ” 制 来 决策 ， 更 简单 的 例子 是 存储 总 线 上 的 奇偶 校 验 。 

随 着 时 代 的 进步 ， 像 DEC、Sun 和 IBM 这 样 的 著名 公司 设计 的 UNIX 工作 站 都 设计 成 为 能 与 
带 奇偶 校 验 的 存储 器 互相 传输 信息 。 这 样 的 存储 器 中 ， 每 个 字 节 以 9 位 方式 存储 ， 或 者 32 位 数 
据 以 36 位 形式 存储 ， 每 个 字 节 中 多 出 来 的 一 位 作为 奇偶 校 验 位 : 








7 6 5 4 3 2 1 0 P 
1 0 1 | 1 | 0 | 1 0 | 1 1 
1 0 1 0 | 0 | 1 0 | 1 0 

















如 果 这 个 字 节 中 “1” 的 个 数 是 奇数 ，P 位 的 值 就 是 1 ， 否 则 为 0。 如 果 单 个 位 产生 了 错误 ， 与 
字 节 内 容 相 比较 奇偶 校 验 位 就 会 是 错误 的 ， 因 此 它 有 可 能 检测 出 是 否 有 单个 位 的 错误 比如 由 SEU 
引起 的 ) 。 即 使 奇偶 校 验 位 恰好 就 是 受 SEU 影响 的 那 一 位 ， 这 个 奇偶 校 验方 法 同样 可 以 应 用 。 

然而 ， 单 个 位 的 奇偶 校 验 并 不 能 检查 出 字 节 中 的 两 位 错误 。 更 糟糕 的 是 ， 尽 管 我 们 知道 发 生 
了 一 个 错误 ,但 是 我 们 并 不 知道 具体 是 哪个 位 产生 了 错误 ， 所 以 无 法 纠正 这 个 错误 。 

更 多 的 错误 检测 方法 中 用 到 了 汉 明 码 和 Reed- Solomon 编码 方法 。 一 种 近来 非常 流行 并 且 比 
较 先进 的 技术 是 功能 强大 的 Turbo 码 ， 经 常用 在 卫星 通信 中 。 这 些 方 法 的 细节 超出 了 本 书 讨论 范 
围 ， 在 这 里 ， 我 们 只 需 知 道 所 有 这 些 方法 增加 了 必须 处 理 的 数据 量 ， 但 提高 了 修复 受 损 数据 的 能 
力 。 实 际 上 ， 在 设计 中 需要 以 下 多 方面 的 权衡 : 

。 编码 的 复杂 度 一 一 需要 多 少 MIPS 编码 一 个 数据 流 

。 解码 的 复杂 度 一 一 需要 多 少 MIPS 解码 一 个 数据 流 








。 编码 开销 一 一 需要 多 少 额外 的 数据 位 加 到 数据 之 中 
。 纠 错 能 能 纠正 多 少 位 错误 数据 


。 检 错 能 力 一 一 能 检测 出 多 少 位 错误 数据 
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我 们 可 以 考虑 每 一 种 设计 要 素 ， 每 个 设计 都 有 它 独 有 的 特点 。 而 且 ， 要 考虑 设计 所 基于 的 数 
据 单元 个 字 节 《有 重复 的 编码 ) ， 也 可 能 是 几 个 KB ， 甚 至 更 大 (Turbo 码 ) 。 我 们 
必须 就 不 同情 况 做 实际 考虑 : 一 些 设计 会 在 处 理 几 个 数据 位 之 后 就 输出 经 过 纠正 的 数据 ， 而 一 
些 设 计 会 在 处 理 完 一 个 庞大 的 数据 块 后 再 进行 解码 。 

一 些 例子 如 下 : 

。 三 重 匈 余 一 一 有 时 称 为 重复 编码 。 在 这 种 编码 设计 中 ， 数 据 的 每 一 位 重复 了 三 次 ， 所 以 
编码 开销 是 300% ， 因 此 一 个 错误 可 以 在 每 3 位 中 被 纠正 。 编 码 和 解码 极其 容易 。 三 重 
模块 元 余 (TMR) 是 其 中 一 个 例子 ， 将 3 个 或 更 多 个 模块 的 输出 由 “多 数 票 决 ” 制 决定 
输出 ， 如 图 7-24 所 示 。 被 决策 的 信号 不 是 必须 为 数据 位 ， 有 可 能 是 字 节 、 字 或 者 更 大 的 
数据 块 。 我 们 可 以 对 单独 的 每 个 位 或 者 整个 项 目的 输出 数据 进行 “投票 ”"。 其 中 一 个 例 














子 是 这 样 的 : NASA 的 航天 飞机 拥有 5 台 IBM 用 于 航天 的 计算 机 ， 其 中 4 台 运 行 相同 的 
代码 并 且 支 持 多 数 票 决 。 第 五 台 运 行 和 其 他 机 器 相同 任务 的 软件 ， 但 是 被 单独 开发 和 编 
写 PE eh o 





module 1 


[Em BB 


oe 1:b 


module 1 





2 BD 





图 7-24 一 个 TMR 例子 一 一 一 个 处 理 模 块 被 重复 了 三 次 。 一 个 简单 的 输出 电路 演示 了 “多 数 票 决 ” 制 。 
例如 ， 如 果 三 个 模块 的 输出 分 别 是 位 级 别 的 0，0，1， 那 么 最 后 的 输出 就 是 0， 我 们 会 认为 输出 
为 1 的 模块 是 错误 的 。 以 此 类 推 ， 如 果 三 个 模块 的 输出 分 别 是 1， 0,，1， 那 么 最 后 的 输出 是 1， 
我 们 会 认为 中 间 输 出 0 的 模块 是 错误 的 。 注 意 : 信号 不 一 定 必须 是 位 ， 有 可 能 是 更 大 的 数据 块 
。 汉 明 码 一 一 一 个 非常 流行 的 代码 形式 ， 通 常 形式 为 (7, 4) 编码 ， 即 为 每 4 位 的 数据 添 
加 3 位 的 校 验 位 数据 。 它 可 以 纠正 每 个 数据 块 里 的 单位 错误 ， 并 且 还 可 以 检测 出 每 个 数 
据 块 中 2 位 的 数据 错误 。 编 码 和 解码 都 是 相对 比较 简单 的 一 一 要 求 对 1、0 组 成 的 矩阵 所 
代表 的 数字 进行 简单 的 模 2 算术 ”。 从 框 7.7 和 框 7.8 中 可 知 (7，4) 代码 的 编码 开销 是 
75% 。 注意: 汉 明 码 存在 许多 不 同 的 形式 ， 从 而 有 不 同 的 代码 开销 以 及 检 错 和 纠 错 特点 。 
人 汉 明 (7，4) 编码 举例 
对 于 一 个 将 要 传输 的 4 位 数据 字 ， 它 的 各 个 数据 位 分 别 是 b。 、b, 、b,、63。 我 们 利用 模 2 算术 来 定义 从 
po 到 ps 的 4 个 奇偶 校 验 位 : 
Po = b, +b, +6; 
p = bo +b, +b; 
Pp = bo tb +b; 
p3 = bo +b: +b, 
实际 上 我 们 要 传输 的 7 位 的 数据 字 是 由 4 位 的 初始 数据 和 3 个 奇偶 校 验 位 组 成 的 ， 如 下 所 示 : 


bo bi b, bs po pi Pp2 








名 模 2 算 术 用 0 和 1! 来 标记 数值 。 它 表示 任何 大 于 1 的 数 除 以 2 的 余数 。 这 样 ， 偶 数 模 2 后 用 0 来 表示 ， 奇 数 模 2 
后 用 1 来 表示 。 例 如 ,3 =1(mod 2)，26 =0(mod 2) 。 以 此 类 推 ， 任 何 数 的 模 n 算法 就 是 它们 除 以 4 后 所 得 的 
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当 接 收 到 这 个 7 位 的 数据 字 时 ， 我 们 很 容易 重新 计算 3 个 奇偶 校 验 位 并 且 检测 它们 是 否 正确 。 它 意味 
着 数据 或 者 被 正确 地 接收 ， 或 者 存在 着 大 于 1 位 的 数据 错误 。 如 果 检 测 到 一 个 错误 ， 我 们 可 以 确切 地 知道 
(假设 只 是 单位 的 数据 错误 ) 哪个 数据 位 是 错误 的 。 例 如 ， 如 果 检 测 到 p, 和 p, 是 错误 的 ， 但 是 pe 是 正确 
的 ， 那 么 数据 位 bo 或 b， 有 可 能 产生 了 错误 。 然 而 ,bs 是 用 来 计算 po 的 ， 而 po 又 是 正确 的 ， 因 而 我 们 可 以 
确定 只 有 位 发 生 了 错误 。 

汉 明 码 (或 者 其 他 编码 形式 ) 更 常用 矩阵 举例 见 框 7.8。 








利用 矩阵 的 汉 明 (7，4) 编码 实例 


实际 上 ， 汉 明 编 码 、 验 认 和 纠 错 是 利用 线性 代数 〈 和 矩阵 ) 来 实现 的 。 汉 明 将 G 定义 为 生成 矩阵 ， 召 定 
义 为 奇偶 校 验 托 阵 : 


1 1 0 1 

1 0 1 1 

1 0 0 0 10 10 10 1 
G=|0 1 1 1 H=|0 1 100 11 

0 10 0 000 1111 

0 0 1 0 

000 1 


我 们 用 一 个 4 位 的 数据 向 量 来 证 明 。 首 先 ， 向量 d (1101) 与 生成 矩阵 G 做 乘法 ， 从 而 生成 7 位 的 要 
传输 的 数据 字 : 





1 1 0 1 3 1 
1011 1 2 0 
100 0 1 1 1 
x=Gd=|0 1 1 1 =|2| modulo2 => |0 
0 1 0 0 ? 1 1 
00 1 0 ! 0 0 
0 0 .0 1 1 1- 


从 而 用 欲 传输 的 数据 1010101 代表 原始 的 数据 1101。 假 设 存在 一 个 单位 数据 错误 ， 我 们 接收 到 一 个 不 同 的 
数据 : y =1000101。 下 面 来 看 一 看 我 们 如 何 用 矩阵 了 来 检查 接收 到 的 数据 : 





1 
0 
10 10 10 1 0 3 1 
wm-|o11oor] -| ooauo2 -> | | 
0001 1 1 1 1 2 0 
0 
1 


通过 查看 闸 偶 校 验 矩阵 互 ， 我 们 看 到 [110] 位 于 第 3 列 ， 那么 ， 我 们 接收 到 的 的 第 三 个 数据 位 就 是 
错误 的 。 通 过 比较 x 和 y， 我们 发 现 确实 如 此 。 将 第 三 个 数据 位 翻转 过 来 ， 由 0 变 为 1 就 纠正 了 ?了 并 且 重 新 
构造 了 原始 的 数据 信息 。 

。 Reed-Solomon (RS) 一 一 一 种 基于 数据 块 的 代码 形式 ， 具 有 相对 较 低 的 编码 复杂 度 和 

较 高 的 解码 复杂 度 。RS 实际 上 是 一 种 基于 数据 块 大 小 的 代码 形式 一 一 它 的 检 错 和 纠 错 能 
力 是 由 所 处 理 的 数据 块 的 大 小 设 定 的 。 一 种 常用 的 代码 形式 是 RS(255 ，223) ， 用 于 处 理 
有 具有 255 字 节 的 数据 块 。 经 过 编码 后 的 数据 块 包含 223 字 节 的 数据 和 32 字 节 校 验 码 数 
据 ， 并 且 在 每 个 223 字 节 的 数据 块 中 ， 可 以 纠正 16 字 节 的 错误 数据 。 注 意 : 这 些 字 节 可 
能 有 多 种 多 样 的 错误 ， 所 以 有 时 可 能 会 纠正 多 于 16 个 的 单位 错误 。 对 于 RS(255，223)， 
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编码 长 度 的 开销 是 223 个 字 节 需 增加 32 个 字 节 ， 即 14% 。 

一 些 CPU (例如 欧洲 太空 总 署 中 所 用 的 SPARC 处 理 器 ， 被 称 为 ERC32 一 一 也 可 以 叫做 Leon 
软 核 ) 自身 就 从 入 了 EDAC (错误 检测 和 纠正 ) 的 能 力 ， 其 他 的 一 些 CPU 则 依赖 于 外 部 的 EDAC 
单元 ， 如 图 7-25 所 示 。 

在 图 7-25 中 ， 数 据 总 线 上 的 数据 和 连接 到 CPU 的 CPU 
数据 并 不 受 EDAC 保护 ， 我 们 需要 一 个 外 部 EDAC 设 
备 给 每 个 从 CPU 写 出 到 存储 器 的 数据 字 添 加 纠 错 代 Ym 
码 ， 并 且 检 测 每 个 从 存储 器 读 人 CPU 的 数据 字 。 一 旦 | 
检测 到 一 个 不 可 修复 的 错误 ， 则 启动 一 个 中 断 来 通知 
CPU。 而 那些 可 修复 的 错误 无 需 CPU 干预 便 可 自动 
修复 。 

注意 ; 并 不 是 所 有 纠 错 代 码 都 可 以 迅速 地 在 CPU 
和 存储 器 之 间 进 行 操作 。 例 如 ，Reed- Solomon 编码 的 
数据 字 需 要 相对 比较 长 的 一 段 时 间 来 解码 ， 每 次 检测 
到 错误 并 且 纠 正 的 过 程 很 可 能 导致 CPU 的 暂时 停顿 。 图 7-25 EDAC 单元 位 于 CPU 存储 
相 比 之 下 ， 汉 明码 是 比较 快捷 的 ， 经 常 在 系统 中 被 用 器 接口 和 外 部 存储 器 之 问 
做 错误 检测 和 纠正 〈 见 框 7.7 和 框 7.8 中 汉 明 编码 的 例子 ) 。 

总 之 ， 要求 一 些 计算 机 系统 高 度 可 靠 ， 因 而 错误 检测 和 纠正 单元 就 是 必须 具备 的 ， 或 者 是 内 
部 能 人 的 单元 ， 或 者 是 在 容易 受 噪声 影响 的 外 部 数据 线 上 。 类 似 地 ， 那 些 更 容易 受 SEU 错误 影 
响 的 高 密度 存储 也 需要 在 EDAC 单元 的 保护 下 才能 正常 工作 。 


7. 11 看 门 狗 定时 器 和 复位 监测 


除了 直接 的 奇偶 校 验 ，EDAC 在 基于 地 面 的 计算 机 中 很 少 使 用 ， 但 看 门 狗 定 时 器 和 掉 电 检测 
器 〈 见 7.11.1 节 ) 却 极其 常见 ， 它 们 通常 在 专用 CPU 集成 电路 中 实现 。 

一 个 看 门 狗 定 时 器 对 于 处 理 器 来 说 就 像 是 起 搏 器 对 于 人 的 心脏 一 样 : 它 需 要 不 断 地 重新 确 
定 处 理 器 在 正确 地 执行 程序 。 如 果 一 段 时 间 没有 进行 重新 确定 ， 看 门 狗 定 时 器 就 可 以 确定 这 个 
处 理 器 已 经 “ 挂 ” 了 ， 并 且 会 触发 复位 键 一 一 就 像 是 起 搏 器 给 已 经 停止 跳动 的 心脏 传输 一 次 小 
小 的 电击 一 样 。 

从 编程 者 的 角度 来 看 ， 处 理 器 必须 反复 在 超时 时 间 段 内 写 入 或 读 出 看 门 狗 定时 天 (WDT)。 
它 会 不 断 地 写 入 或 读 出 ,但 在 一 段 特定 的 时 间 内 如 果 读 写 失败 ， 就 会 引起 复位 。 

内 置 的 WDT 会 允许 编程 人 员 通 过 写 人 内 部 的 配置 寄存 器 来 设 定 超时 时 间 ， 这 个 配置 寄存 器 
通常 有 存储 映射 。 看 门 狗 的 构造 是 一 个 倒数 计时 器 ， 通 过 输入 分 频 系统 时 钟 具 体 实 现 ， 分 频 比 率 
在 很 多 情况 下 也 是 可 以 设置 的 。 系 统 复位 时 ， 看 门 狗 计 时 器 的 配置 寄存 器 中 的 值 会 被 载 人 到 一 
个 硬件 计数 器 中 。 系 统 没 有 复位 的 时 候 ， 这 个 计数 器 会 随时 钟 递减 。 比 较 器 会 监督 它 何 时 减 为 
零 ， 此 时 将 触发 复位 信号 。 一 旦 CPU 读 出 或 写 人 数据 到 WDT 寄存 器 中 ， 硬 件 计数 器 会 将 看 门 狗 
计时 器 的 配置 寄存 器 的 数值 重新 载 人 。 

一 个 外 部 的 看 门 狗 定时 器 可 以 由 一 个 电容 、 电 阻 和 一 个 比较 器 组 成 。 这 样 的 看 门 狗 定时 器 
和 外 部 复位 电路 〈 见 7.11.1 节 ) 的 工作 方式 类 似 ， 只 是 CPU 要 定期 地 向 电容 “ 写 人 ”一 个 逻辑 
“高 ”以 保持 它 的 充电 状态 ， 从 而 呈现 复位 状态 。 

典型 的 看 门 狗 计 时 时 间 是 几 百 毫秒 或 可 能 是 几 秒 一 一 如 果 时 间 太 短 将 会 意味 着 过 多 的 CPU 
周期 浪费 在 周期 性 存 取 WDT 的 代码 上 。 解 决 这 个 问题 的 最 好 方法 就 是 周期 性 地 执行 一 些 底层 代 
码 ， 比 如 每 100ms 执行 一 次 的 操作 系统 (0S) 定时 器 程序 。 如 果 定 时 器 停止 ， 我 们 就 可 以 断定 
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系统 已 经 崩溃 了 ， 结 果 看 门 狗 会 重启 处 理 器 。 看 门 狗 定 时 器 因此 要 确保 系统 时 刻 处 在 运行 之 中 ， 
否则 ， 它 会 重启 CPU 并 且 重 新 执行 0S 程序 。 


复位 监测 器 和 掉 电 检测 器 


计算 机 行业 的 许多 资深 人 士 也 许 还 记得 早期 IBM PC 上 的 “大 红色 开关 ”和 机 器 上 很 显眼 的 
复位 按钮 。 这 些 明显 的 按钮 可 能 是 一 种 运行 在 机 器 上 的 操作 系统 ( 即 MS-DOS 和 Microsoft Win- 
dows) 的 可 靠 性 的 体现 。 幸 运 的 是 我 们 不 再 用 MS-DOS 了 ,但 是 仍然 在 用 Windows 一 一 尽管 它 一 
般 不 会 被 用 于 那些 可 靠 性 要 求 很 高 的 “任务 至 关 重 要 ”的 应 用 中 。 

相 比 之 下 ， 通 人 式 系统 就 不 会 有 大 的 复位 按钮 ， 它 经 常用 “ 软 ” 开 关 而 不 是 “ 硬 ” 开 关 
( 即 那些 处 于 软件 控制 之 下 的 “开关 ”， 而 不 是 在 硬件 上 直接 控制 电源 系统 的 开关 ) 。 嵌 入 式 系 统 
经 常 被 认为 是 更 加 可 靠 的 ， 尤 其 在 远程 操作 方面 。 例如， 在 火星 探测 器 上 的 “ 犬 红色 开关 ”是 
不 现实 的 。 

在 提高 系统 可 靠 性 的 要 求 方面 ， 嵌 人 式 系 统 趋向 于 广泛 地 利用 看 门 狗 定 时 器 。 它 还 有 电源 
和 复位 监测 电路 。 

复位 电路 ， 经 常 由 一 个 外 部 的 复位 输入 驱动 ， 对 于 确保 一 个 设备 在 已 知 状态 下 开始 操作 是 
非常 重要 的 。 不 管 是 在 CPU、SoC、FPGA 中 ， 还 是 在 分 立 的 硬件 系统 中 ,缺少 复位 清 零 信号 是 
许多 系统 错误 的 起 因 。 

一 个 外 部 的 复位 控制 设备 ,或 者 监测 IC 如 图 7-26 所 示 ， 一 旦 系统 上 电 就 会 “启动 ”复位 信 
号 。 一 段 时 间 后 ,复位 信号 撤销 ， 就 会 允许 设备 从 一 个 已 知 的 位 置 开始 运行 。 一 些 SoC 处 理 器 在 
内 部 会 包括 所 有 的 复位 逻辑 和 时 序 电 路 。 其 他 设备 可 能 会 允许 设计 者 简单 地 将 复位 管 脚 接 到 和 
GND 相连 的 电容 上 ， 和 一 个 与 Vee 相连 的 电阻 上 ， 但 是 在 许多 情况 下 这 样 做 是 非常 危险 的 ， 所 

以 一 定 要 非常 注意 。° 





nRST 


外 部 设备 





GND 


图 7-26 位 于 Vec 和 地 (GND) 之 间 的 复位 监测 IC 一 一 用 于 为 CPU 和 任何 需要 它 的 外 部 设备 产生 低 电 
平 有 效 的 nRESET 信和 号。 按照 约定 ， 复 位 信号 是 低 电 平 有 效 的 ， 以 确保 第 一 次 上 电 时 设备 处 
于 复位 状态 。 如 果 设 计 中 要 求 有 复位 按钮 ， 那 么 这 也 可 以 作为 复位 监测 器 的 一 个 输入 


合 ”这 种 做 法 危险 的 原因 在 于 复位 信号 被 触发 的 方式 。 系 统一 上 电 ， 通 过 电容 的 电压 初始 为 0， 意 味 着 复位 管 脚 为 
低 电 平 。 由 于 电容 通过 与 Vec 相连 的 电阻 慢 慢 充电 ， 电 压 会 一 直上 升 并 达到 复位 输入 管 脚 的 阔 值 ， 这 时 ， 它 会 
作为 逻辑 “高 ”驱动 复位 输入 信和 号， 从 而 使 设备 从 复位 中 退出 。 然 而 ， 不 幸 的 是 ， 在 任何 系统 中 总 会 存在 电 噪 
声 ， 引 起 电压 小 范围 波动 ， 使 电容 电压 超过 复位 管 脚 阐 值 ， 导 致 设备 快速 地 进入 和 退出 复位 ， 扰 乱 复位 动作 。 
这 促使 大 多 数 制造 商 不 得 不 规定 一 个 他 们 的 设备 保持 在 复位 状态 的 最 小 时 间 。 
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挤 电 是 指 在 电压 线 " 上 的 一 次 电压 下 降 。 由 于 规定 CPU 只 可 以 在 很 小 的 电压 变动 范围 内 运 
行 ， 因 此 当 掉 电 发 生 时 会 引起 故障 。 如 果 完 全 掉 电 ， 外 部 复位 芯片 会 启动 复位 状态 〈 即 一 旦 电 
源 恢 复 ， 它 们 会 在 制造 商 规定 的 时 间 内 将 CPU 保持 在 复位 状态 ) 。 然 而 ， 当 供电 电压 不 在 规定 的 
电压 范围 内 时 ， 只 有 拥有 掉 电 检测 器 的 复位 芯片 才 会 做 同样 的 事情 。 

男 外 ,一些 带 掉 电 检 测 的 复位 芯片 可 以 给 处 理 器 提供 即时 的 掉 电 中 断 ， 使 处 理 器 在 完全 掉 
电 的 几 毫 秒 之 前 及 时 处 理 好 该 做 的 事情 ， 然 后 “干净 ”地 断 电 。 复 位 监测 (reset supervision) 和 
掉 电 检 测 的 处 理 如 图 7-27 所 示 ， 提 供给 处 理 器 的 Vec 电压 值 随时 间 的 变化 在 图 中 绘 出 。 设 备 的 
工作 电压 是 3.3V +5% ， 因 而 复位 监测 系统 被 设置 为 检测 任何 超出 这 个 范围 的 Vcc 电压 偏 称 。 当 
检测 到 电压 偏 移 时 ， 系 统 会 触发 复位 状态 。 复 位 状态 会 在 每 次 发 生 时 保持 10ms (实际 上 ， 它 经 
常 被 设 定 为 超出 处 理 器 制造 商 所 规定 的 时 间 ， 规 定时 间 一 般 远 小 于 10ms) 。 这 时 会 像 如 图 7-26 
所 示 的 标准 复位 监测 IC 一 样 连接 和 使 用 掉 电 检测 设备 。 


电压 
超过 峰值 




















图 7-27 ”一 个 复位 监测 芯片 的 例子 。 当 提供 的 电源 〈 上 面 的 轴线 ) 上 升 到 额定 的 3.3V 时 会 引起 复位 
(如 处 于 下 面 轴线 的 nRESET 信和 号 所 示 ) 经 过 一 段 时 间 的 正常 操作 ， 当 电压 值 下 降 时 掉 电 发 
生 了 。 监 测 芯 片 必然 会 将 处 理 器 干净 地 复位 直到 电压 又 上 升 到 额定 电压 。 稍 后 ， 电 压 值 超过 
峰值 的 情况 开始 出 现 ， 在 这 种 情况 下 也 会 做 类 似 的 处 理 











7. 12 逆向 工程 

随 着 诗人 式 技术 的 发 展 ， 消 费 者 看 到 了 令 人 满意 和 惊叹 的 新 产品 ， 但 对 开发 人 员 来 说 ， 这 是 
一 个 长 期 、 艰 巨 而 昂贵 的 设计 过 程 。 当 然 ， 任 何 新 的 咎 入 式 系 统 的 先锋 发 明 者 可 以 期 望 有 时 间 上 
的 竞争 优势 ， 这 个 时 间 让 他 们 能 够 改善 其 原始 设计 ,企业 往往 仰赖 这 头 几 个 月 在 不 拥挤 的 市 场 
上 的 销售 额 来 收回 大 量 前 期 设计 和 制造 成 本 。 通 常情 况 下， 竞争 对 手 的 产品 也 包含 类 似 的 先驱 
产品 投入 ， 因 为 同样 需要 类 似 的 开发 代价 。 














捉 “ 掉 电 ” (brownout) 就 像 是 “ 断 电 ” (blackout) ， 但 不 如 它 严重 。 也 许 我 们 可 以 依据 这 种 颜色 比喻 将 电源 的 峰 
值 比 作 “whiteout”。 
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然而 ， 当 竞争 对 手 对 先驱 设计 进行 廉价 而 快速 的 逆向 工程 ?设计 时 ， 经 济 情况 将 会 发 生 大 幅 
度 变 化 。 他 们 的 开发 成 本 在 很 大 程度 上 被 逆向 工程 成 本 取代 ， 如 果 我 们 假设 这 些 都 大 大 减少 ， 那 
么 竞争 者 将 很 容易 削减 先驱 设备 的 价格 。 影 响 是 双重 的 : 首先 ， 先 锋 公 司 的 市 场 领先 地 位 被 削 
弱 ; 其 次 ， 其 市 场 份额 由 于 竞争 对 手 产品 定价 较 低 而 减少 。 逆 向 工程 ( Reverse Engineering，RE ) 
过 程 比 完整 的 原型 开发 项 目 更 短 、 更 便宜 的 假设 在 仿冒 产品 的 商业 例子 上 得 到 证 明 。 前 期 开发 
成 本 和 RE 成 本 的 差别 越 大 ， 先 锋 公 司 的 风险 就 越 大 ， 而 有 意 仿冒 其 产品 的 恶意 竞争 对 手 的 收益 
也 越 大 。 而 在 一 个 真正 具有 革命 性 的 产品 很 容易 对 其 实施 逆向 工程 的 情况 下 ， 这 种 差别 最 大 。 

当然 ， 应 该 指出 的 是 ， 了 解 事物 如 何 工作 的 逆向 工程 是 一 个 历史 悠久 的 工程 方法 。 它 更 是 一 
个 有 效 的 研究 领域 ， 是 许多 工程 师 喜 欢 从 事 的 工作 。 然 而 ， 通 过 逆向 工程 设计 仿冒 品 在 嵌入 式 行 
业 很 受 关注 ， 从 而 导致 了 一 些 与 计算 机 体系 结构 相关 的 挑战 和 对 策 ， 我 们 将 在 后 面 讨论 。 

但 是 首先 简要 观察 RE 过 程 本 身 是 有 用 的 ， 因 为 这 能 够 抛砖引玉 。 


7. 12. 1 逆向 工程 过 程 


在 本 节 中 ， 我 们 将 从 对 未 爱 保 护 的 符 人 式 系 统 进行 道 向 工程 的 违规 公司 的 角度 来 讨论 。 其 
目的 是 研究 每 一 步 的 困难 、 专 用 设备 和 工作 ， 以 测定 此 过 程 中 的 成 本 结构 以 及 它 如 何 与 处 于 
“攻击 ”之 下 的 体系 结构 相关 联 。 

RE 过 程 涉 及 系统 的 自 上 而 下 和 自 下 而 上 两 种 分 析 。 图 7-28 描述 了 嵌入 式 系 统 的 层次 结构 ， 
可 以 看 到 系统 本 身 潜在 地 包含 不 同 的 子 系统 (sub-assembly) ， 每 个 子 配件 包含 一 个 或 更 多 印 制 电 
路 板 (PCB) 的 单个 模块 或 模块 组 。 自 上 而 下 意味 着 从 整体 系统 功能 开始 ,一直 向 下 ， 把 设计 划 
分 成 过 程 块 ， 逐 步 说 明 设 计 功能 ， 直 至 底层 。 自 下 而 上 通常 包括 先 确定 关键 设备 ， 然 后 从 它们 推 
断 进 一 步 的 信息 。 一 个 例子 就 是 在 一 块 PCB 上 找到 一 个 已 知 的 CPU， 从 而 推断 出 系统 内 的 许多 
“情报 ”集中 在 该 模块 内 。 


子 系统 \ 
/ 嵌入 式 系统 


六 





图 7-28 ”对 柑 入 式 系 统 进行 逆向 工程 时 的 信息 层次 示意 图 。 从 外 向 内 ， 把 系统 作为 一 个 整体 分 析 ， 包 括 

一 个 或 多 个 子 系统 (包括 布线 ) ， 模 块 〈 和 它们 的 固定 装置 ) ， 模 块 包括 一 个 或 多 个 PCB (包括 
子 板 、 插 -上 等 ) ， 直 至 安装 在 PCB 上 或 位 于 系统 内 其 他 地 方 的 单个 元 件 

财 和 人 式 系统 的 自 上 而 下 RE 通常 包括 几 个 分 析 步 又 。 尽 管 在 实践 中 个 别 的 RE 攻击 可 能 不 一 

定 涉及 每 一 步 ， 或 者 按照 一 个 特定 的 顺序 , 但 RE 各 阶段 的 逻辑 列表 一 般 如 下 : 

A: 系统 功能 分 析 

B: 物理 结构 分 析 

。 B.1: 机 电 布 局 





旬 “逆向 工程 ”通常 被 定义 为 一 个 过 程 ， 涉 及 对 设备 功能 、 结 构 和 技术 的 分 析 和 理解 ， 并 用 一 种 使 其 结 多 和 技术 
可 重用 的 方式 来 表现 出 来 。 
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se。 B. 2: 外 过 设计 349 
。 B.3: 印 制 电路 板 布局 

。 B.4: 布线 和 连接 器 

se B.5: 汇编 指令 

C: 材料 清单 

se。 C.1: 有 源 电子 元 件 

e。 (5C.2: 无 源 电子 元 件 

e (0C.3: 互 连 线 和 连接 器 

es。 (C.4: 机 械 项 目 

D: 系统 架构 

s。 D. 1: 功能 块 和 它们 的 接口 

。 D.2: 连通 性 

E: 详细 的 物理 布局 

。 EE. 1: 单个 元 件 的 位 置 

。 E.2: 元 件 之 间 的 电气 连接 

。 E.3: 阻抗 约束 和 位 置 敏 感 定位 

F: 电气 连接 原理 图 
G 











: 对 象 /可 执行 代码 
G. 1: 代码 处 理 器 剥离 

。 G.2: 可 重 构 逻 辑 固件 代码 剥离 

H: 软件 分 析 

为 了 突出 这 个 过 程 ， 关 于 未 受 保护 /未 刹 化 的 宜人 入 式 系 统 ， 我 们 将 用 如 图 7-29 所 示 的 非常 通 ”B50] 
用 的 系统 级 框图 来 讨论 每 个 RE 阶段 。 它 包含 一 个 大 规模 集成 电路 (IC) ， 连 接 了 易 失 性 存储 器 
(在 这 种 情况 下 是 SRAM) 、 非 易 失 性 存储 器 (内存) 、 现 场 可 编程 门 阵列 ( FPGA) 、 某 种 形式 的 
用 户 接口 、 连 接 器 以 及 一 些 与 外 界 接 口 的 设备 ， 一 般 为 模 数 转换 妖 〈ADC) 和 数 模 转换 器 
(DAC) 。 特 定 的 系统 可 能 会 有 所 不 同 ， 但 作为 普遍 的 一 类 ， 骨 人 式 系 统 通常 包 括 一 个 从 闪存 启 
动 的 CPU, 在 SRAM 外 执行 (这 两 者 越 来 越 倾 向 于 要 集成 到 IC 内 部 ) ， 连 接 到 离散 部 件 或 可 编 
程 逻辑 (FPGA 、 可 编程 逻辑 器 件 等 ) 或 专用 集成 电路 ( ASIC) ， 某 种 形式 的 用 户 界面 以 及 与 外 
部 模拟 世界 的 接口 。 更 大 型 的 系统 往往 会 使 用 DRAM 、SDRAM 甚至 硬盘 存储 。 还 有 一 些 集成 系 
统 倾向 于 在 FPGA 或 ASIC 中 集成 CPU 软 核 。 

现在 我 们 以 图 7-29 中 的 系统 为 例 讨 论 RE 过 程 的 每 个 阶段 。 我 们 假定 系统 没有 被 保护 或 以 任 
何方 式 故 意 硬化 。 


He 
乡 晶振 
SRAM 晶振 
UL 


闪存 





图 7-29 待 分 析 的 宜人 式 系统 示例 框图 。 包 含 两 个 有 源 IC 〈 松 散 定义 为 CPU 和 FPCA/ASIC) 、 两 个 存储 元 件 
( 易 失 性 SRAM 和 非 易 失 性 闪存 ) ， 加 上 几 个 连接 器 、 电 源 电路 、 唱 振 和 接口 设备 
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7. 12. 1.1 功能 分 析 

一 个 RE 团队 通常 会 收 到 一 些 单元 进行 逆向 工程 。 这 一 过 程 开始 于 咨询 用 户 文档 、 维 修 手 
册 、 产 品 简介 等 。 最 低 限 度 ， 要 给 出 经 过 仔细 检查 的 功能 列表 ， 随 后 的 分 析 将 会 显示 有 足够 的 硬 
件 和 软件 来 支持 每 个 所 确定 的 功能 。 

这 是 相对 简单 的 工作 ， 并 可 以 通过 搜索 因特网 上 的 新 闻 组 、 博 客 、 黑 客 网 站 等 中 的 信息 来 增 
强 。 了 解 制造 商 和 任何 原始 设备 制造 商 ( OEM) ， 其 电子 邮件 域 的 个 人 记录 可 以 被 跟踪 和 相 
关连 。 
7.12.1.2 物理 结构 分 析 

拆 分 可 能 像 邱 下 几 个 螺丝 来 打开 一 个 盒子 一 样 简单 ， 或 像 通过 层 层 微机 械 工作 一 样 难 。 在 
许多 情况 下 ， 一 个 复杂 的 拆 分 过 程 文档 是 决定 相应 的 制造 装配 过 程 的 关键 。 可 能 设计 者 已 经 投 
和 了 大 量 的 时 间 和 精力 在 可 制造 性 问题 上 了 ， 因 此 有 可 能 要 了 解 这 些 问题 的 隐 含 价值 。 这 些 信 
息 在 服务 手册 中 可 能 有 记载 。 

拆 分 部 件 的 顺序 和 位 置 应 该 记录 下 来 ， 借 助 照片 或 录像 记录 会 很 容易 。 理 想 情况 下 ， 团 队 中 
的 一 名 成 员 应 专门 负责 过 程 的 记录 工作 。 执 行 拆 分 的 任何 观察 和 见解 也 需要 在 这 个 阶段 加 以 注 
意 。 虽 然 复制 外 壳 、 内 部 结构 、 布 线 图 等 的 详细 机 械 图 纸 可 从 对 零件 的 静态 分 析 中 获得 ， 但 装备 
图 仍 需 要 通过 拆 印 和 重组 来 得 到 。 物 理 结构 分 析 不 太 可 能 是 RE 的 昂贵 部 分 。 然 而 ， 不 寻常 的 机 
械 安排 和 结构 背后 的 原因 起 初 可 能 不 是 显而易见 的 ， 需 要 集思广益 。 

7. 12. 1.3 材料 清单 

材料 清单 (BOM) 列 出 了 设计 中 使 用 的 所 有 元 件 ， 可 以 简单 到 计算 螺丝 、 电 阻 等 的 数目 。 
但 是 ， 可 能 会 发 生 某 些 元 件 难以 识别 的 情况 ， 特 别 是 半 定 制 IC 和 高 度 微型 化 封装 的 设备 〈 没 有 
为 识别 标志 留 出 足够 的 表面 积 ) 。 如 果 用 简化 代码 显示 ， 它 们 可 能 会 遵循 EDEC、JIS 或 Pro-E- 
lectron 的 标准 化 格式 。 可 能 需要 对 分 立 部 件 进行 隔离 测试 ， 它 们 的 特性 可 能 与 已 知 设备 精确 匹 
配 。 然 而 ，5% 或 以 上 的 公差 很 常见 ， 在 进行 精确 测定 前 ， 对 许多 系统 的 部 件 进行 隔离 和 测试 是 
有 必要 的 。 

在 真正 的 学 术 研 究 领域 ， 尤 其 是 在 过 时 的 部 件 需要 重新 创建 的 情况 下 ， 某 些 部 件 可 以 被 原 
样 复制 。 一 般 情况 下 ， 物 理 测量 中 的 实体 模型 可 以 与 材料 分 析 结合 起 来 以 完整 地 描述 许多 部 件 ， 
包括 结构 项 目 、 附 件 和 无 源 元 件 。 

PCB 丝印 标记 对 于 识别 微小 的 无 标记 部 件 常常 能 提供 有 用 的 线索 (如 212 可 能 是 一 个 齐 纳 
二 极 管 ， 而 L101 可 能 是 一 个 电感 )。 标 记 不 寻常 或 缺失 的 IC 是 比较 麻烦 的 ， 尤 其 是 制造 商 并 不 
确定 的 时 候 。 有 时 ， 片 上 系统 的 处 理 核 厂家 相 比 其 他 更 容易 被 确定 。 如 果 可 以 识别 制造 过 程 ， 就 
可 以 将 其 与 该 过 程 其 他 已 知 产品 的 发 布 者 关联 起 来 。 

否则 ， 后 续 的 系统 分 析 (如 数据 总 线 、 地 址 总 线 的 位 置 和 大 小 ， 控 制 信号 和 电源 连接 ) 可 
以 帮助 确定 那些 不 能 立即 识别 的 部 件 。 

大 多 数 谨 入 式 系统 会 纳入 现成 的 部 件 ， 其 至 提供 有 用 的 丝印 注释 ， 有 助 于 使 RE 过 程 变 得 廉 
价 。 最 常见 的 困难 似乎 与 定制 的 硅 器 件 相关 ， 无 论 它 来 源 于 OEM 或 大 规模 集成 (LSD 器 件 的 内 
部 开发 。 然 而 ， 虽 然 OEM 硅 器 件 常常 无 正式 文档 ， 但 有 时 可 以 在 线 追 踪 到 中 文 、 韩 文 或 日 文 文 
档 。 此 外 ， 内 部 LSI 器 件 可 以 通过 母 公司 发 售 ， 在 这 种 情况 下 ， 一 个 功能 列表 将 被 刊登 在 某 处 ， 
但 在 看 到 完整 的 数据 表 前 可 能 需要 有 一 个 保密 协议 (NDA)。 

显然 ， 最 好 在 一 个 粗略 的 检查 过 程 中 识别 出 主要 IC， 但 即使 不 能 立即 识别 ， 这 个 过 程 也 不 
会 就 此 完结 。 可 以 执行 详细 而 昂贵 的 分 析 以 确定 确切 的 输入 和 输出 ， 并 由 此 推断 内 部 功能 。 这 可 
能 包括 研究 电压 等 级 (例如 CPU 核电 压 ) 、 时 钟 频率 、 总 线 连接 、 去 看 安排 等 。 更 具 破 坏 性 地 ， 
可 以 打开 设备 外 壳 ， 一 层 一 层 地 分 析 硅 层 。IC 逆向 工程 将 在 7. 12. 2. 2 节 中 进一步 讨论 。 
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7. 12. 1.4 系统 架构 

系统 架构 分 析 揭 示 了 连接 的 粗略 框图 以 及 负责 各 个 功能 项 的 子 系统 : 这 涉及 了 解 系统 内 模 
块 、 电 路 板 和 设备 之 间 的 分 区 设计 。 需 要 在 这 个 阶段 决定 的 另 一 个 重要 方面 是 确认 电源 或 接地 
层 以 及 系统 的 配 电 区 。 系 统 内 的 总 线 连接 也 需要 确认 。 调 试 端口 或 IEEE1149 JTAG ( 见 7.9.3 
节 ) 接口 的 存在 对 协助 RE 过 程 作用 显著 ， 因 此 它 的 任何 迹象 都 是 重要 的 。 线 索 可 能 包括 5 个 测 
试点 的 集合 以 及 靠近 CPU 的 上 拉 电 阻 。 

在 大 多 数 系统 中 ,各 部 件 的 电路 连续 性 测试 和 视觉 检测 以 及 它们 的 安排 可 以 相继 进行 。 例 
如 ,在 相信 式 系统 中 ， 相 辣 的 CPU 数据 总 线 可 能 同时 与 闪存 和 SRAM 相连 。 通 过 连续 性 测试 并 
结合 数据 手册 很 容易 发 现 这 种 安排 。 这 种 测试 适合 球 机 阵列 这 样 的 现代 封装 ， 但 依然 存在 困 
难 。 电 源 引 脚 的 位 置 往往 是 事先 可 预测 的 ， 很 容易 进行 测试 。 对 于 大 多 数 艇 人 式 系统 ， 这 种 
类 型 的 分 析 是 简单 而 廉价 的 , 但 是 正如 我 们 将 在 7. 13. 1 节 看 到 的 那样 ， 它 可 以 被 设计 师 故意 
弄 得 很 复杂 。 

7. 12.2 详细 的 物理 布局 

在 没有 丝印 布局 注释 的 地 方 ， 元 件 位 置 和 方向 的 照片 可 以 揭示 所 需 的 两 个 外 层 位 置信 息 。 

接 下 来 ， 所 有 的 元 件 将 被 移 开 ， 看 出 钻 孔 位 置 。 作 为 快速 检查 ， 可 以 比较 顶层 和 底层 孔 的 位 置 : 


如 果 它 们 是 相同 的 ， 那么 就 没有 盲 孔 ， 并 且 不 太 可 能 (虽然 并 不 是 不 可 能 ) 有 任何 的 埋 孔 。 
下 一 阶段 是 PCB 分 层 〈 通 过 逐 层 和 剥离) ， 从 一 个 恒定 的 参考 位 置 对 每 一 层 照相 。 这 可 以 被 用 





来 建立 一 个 正确 照相 的 层 堆 栈 。 从 这 一 点 来 说 ， 它 是 相对 简单 地 复制 PCEB， 但 是 还 需要 铜 和 每 个 
PCB 层 的 组 成 和 厚度 信息 。 在 实践 中 ， 可 以 通过 研究 每 层 PCB 都 有 铜 的 那 部 分 的 截面 发 现 这 一 
点 〈 为 此 , 许多 PCB 有 一 个 附 连 测试 板 〈test coupon) 区 域 ， 因 为 制造 过 程 的 变化 会 特别 影响 铜 
的 厚度 ， 这 反 过 来 又 会 影响 系统 性 能 ， 从 而 可 能 需要 进行 测试 ) 。 

通常 情况 下 ， 多 层 区 域 从 PCB 附 连 测试 板 上 开 孔 ， 将 对 端 (end-on) 置 于 一 个 冰球 形状 的 
模具 内 ， 模 具 用 环 氧 树脂 填充 。 设 置 时 ， 镜 片 研磨 机 可 用 来 准备 一 个 对 端 截面 ， 用 于 在 显微镜 下 
的 测量 检查 ， 由 此 可 以 简单 地 读 出 铀 厚度 和 层 厚 度 。 

对 于 大 电路 板 ， 可 能 要 从 PCB 上 的 几 个 区 域 开 孔 检 查 ， 因 为 制造 过 程 中 的 铜 蚀刻 槽 可 能 存 
在 变化 《如 靠近 蚀刻 构 上 层 角落 的 PCB 的 边缘 跟 靠 近 底 层 中 心 区域 的 蚀刻 不 同 ， 无 论 哪 种 情况 ， 
局 部 的 铜 禾 盖 密 度 同样 也 会 影响 蚀刻 ) 。 

越 来 越 多 的 典 和 人 式 系统 需要 对 高 速 或 无 线 电 频率 相关 信和 号 进行 跟踪 阻抗 控制 。 
下 ，PCB 的 确切 特征 很 重要 ， 包 括 介 电 常数 、 预 浸 编 织 厚 度 和 树脂 类 型 。 总 体 而 言 ， 


在 这 种 情况 
阻抗 可 以 通 


过 时 域 反 射 法 或 使 用 网 络 分 析 仪 来 决定 。 预 浸 料 的 类 型 和 特点 可 以 通过 显微镜 发 现 ， 树 脂 类 型 
可 以 通过 查看 整体 数据 来 决定 。 
出 了 再 构造 电器 等 效 PCB 所 需要 的 信息 的 示例 ， 正 确 照相 的 层 堆栈 除外 。 


表 7-3 四 层 PCB 的 板 层 特性 


表 7-3 给 






































名 称 组 成 厚度 厚度 
L1 信号 1/4oz 铜 销 0. 0176mm L3 信号 1/4oz 铀 0. 0177mm 
预 浸 材料 7628 x2 0. 3551 mm 预 漫 材料 。 | 7628 x2 0. 3543mm 
L2 信号 1/4oz 铜 0. 0177mm L4 信号 14zo 铜币 0. 0176mm 
层 压 材料 FR4 0. 91mm 





X 射线 也 可 能 是 提取 布局 信息 














的 一 个 可 行 方法 ， 甚 至 可 以 提供 不 明 IC 内 部 的 有 用 信息 。 作 
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354] 为 一 个 例子 ， 前 文 的 图 7-19 显示 了 安装 在 PCB 上 的 FPGA 器 件 的 低 倍率 X 射线 ， 可 以 清楚 地 看 


到 连 线 、 去 碍 电容 (在 PCB 的 背面 ) 和 安装 在 板子 顶层 的 FPGA 内 部 引线 框 。 实 心 圆 是 测试 点 ， 
而 空心 圆 是 连接 不 同 PCB 层 上 的 通道 的 通 孔 。 穿 过 左上 角 、 像 头发 一 样 的 线 是 焊接 在 IC 的 一 个 
引 脚 上 的 细 导 线 。 

虽然 在 物理 布局 分 析 阶 段 可 能 需要 一 些 专 门 设备 (例如 测量 显微镜 和 反射 仪 ) ， 但 除非 涉及 
阻抗 控制 ， 否 则 复制 PCB 布局 和 层 堆栈 既 不 困难 也 不 昂贵 。 

7. 12.2.1 电气 连接 原理 图 

电气 连接 最 常见 的 表示 是 网 表 。 它 指定 了 各 个 节点 之 间 的 电气 连接 ， 通 常 也 指定 连接 到 这 
些 节 点 上 的 设备 。 网 表 本 身 并 没有 考虑 到 实际 物理 定位 。 它 只 关注 节点 间 的 连接 关系 ， 尽 管 在 实 
际 系统 中 物理 定位 本 身 也 很 重要 (也许 有 保留 区 以 减少 干扰 ， 或 者 是 为 了 在 高 压 环 境 下 保证 安 
全 ) 。 这 些 节点 通常 是 连接 元 件 的 衬 垫 和 孔 ， 连 接 通 常 是 导线 或 者 PCB 走 线 。 

网 表 可 以 通过 连接 性 检查 生成 ， 可 检查 X 射线 照片 或 者 分 层 PCB 的 照片 。 这 非常 耗 时 且 容 
易 出 错 ， 但 用 以 下 方法 核实 至 少 比较 简单 : (i) 在 原始 板 上 测试 预期 的 连续 性 ; (ii) 参阅 器 件 
数据 手册 上 的 预期 连接 ; 《让 ) 寻找 挂 起 项 点 和 意 想不到 的 短路 ， 比 如 两 引 脚 元 件 只 连接 了 一 个 
引 脚 ， 或 一 个 两 引 脚 元 件 的 两 个 引 脚 连接 在 了 一 起 。 

一 旦 发 现 网 表 ， 并且 设备 在 BOM 中 被 确认 ， 下 一 步 将 是 重新 建立 一 个 原理 图 来 描绘 系统 。 
由 网 表 生 成 原理 图 是 一 个 既定 的 研究 领域 , 已 有 商业 工具 可 用 。 然 而 ， 现 实 中 大 部 分 RE 尝试 通 
过 已 知 信息 重 绘 一 个 完整 的 原理 图 。 由 原理 图 再 生成 的 网 表 可 以 作为 参考 ,与 导出 的 系统 网 表 
进行 比较 以 纠 错 。 

还 要 注意 BOM 和 已 知 的 原理 图 允许 使 用 仿真 工具 来 协助 BOM 和 网 表 准 确 性 验证 。 

7. 12. 2.2 存储 程序 

在 使 用 多 个 可 编程 器 件 (如 CPU 和 FPGA) 的 地 方 ， 最 简单 的 电气 安排 会 让 每 一 个 器 件 有 单 
独 的 闪存 装置 (分 别 为 CPU 和 FPGA 提供 并 行 和 串 行 连接 ) 。 然 而 ， 由 于 成 本 原因 ， 通 常 系统 内 
所 有 非 易 失 性 程序 存储 会 聚集 到 一 个 单一 的 器 件 上 。 在 现代 能 人 式 系 统 中 ， 这 个 装置 通常 是 内 
存 一 一 如 果 可 能 的 话 串 行 连接 ， 和 否则 并 行 连接 。 

非 易 失 性 存储 器 中 的 存储 项 目 可 能 包括 独立 的 引导 代码 、CPU 操作 代码 、 系 统 配置 、FPGA 配 
置 数据 或 者 其 他 特定 于 系统 的 项 目 。 在 本 小 节 中 ， 我 们 考虑 决定 存储 程序 的 存储 器 位 置 的 方法 ， 着 
眼 于 它们 的 个 体 提取 方法 (在 随后 的 章节 中 ， 我 们 将 讨论 固件 /软件 程序 本 身 的 逆向 工程 )。 

掩 模 编 程 门 阵列 、 非 易 失 性 PLD 和 ASIC 不 需要 外 部 的 非 易 失 性 存储 器 件 ， 它 们 内 部 有 存储 
结构 。 在 某 些 情况 下 ， 可 以 隔离 一 个 可 编程 器 件 ， 并 读 出 其 内 部 的 配置 代码 。 但 在 不 可 能 读 出 或 
设备 安全 措施 有 效 的 情况 下 ， 就 需要 大 量 的 黑 盒子 分 析 或 内 部 检查 。 后 者 可 通过 游 解 塑料 外 壳 
和 /或 精心 打磨 硅 层 ， 用 电子 显微镜 或 反射 的 激光 读 取 每 个 存储 位 的 状态 来 实现 。 

毫 无 疑问 ， 有 安全 设置 的 程序 存储 设备 对 逆向 工程 师 来 说 比 多 数 只 包 会 单一 非 易 失 性 存储 
块 的 设计 更 麻烦 和 昂贵 。 这 里 以 普遍 设计 为 例 ， 即 CPU 负责 为 FPGA 编程 ， 两 者 依次 从 闪存 获 
得 自己 的 代码 。 

7. 12.2.3 软件 

从 内 存 转 储 获 得 的 软件 很 容易 原样 复制 。 变 化 只 涉及 一 些 简 单 的 调整 ， 如 重 写 字符 串 的 内 
容 来 改变 制造 商 的 名 字 、 序 列 号 和 版 本 代码 。 对 可 执行 代码 块 也 可 以 小 心地 剪 切 和 粘贴 。 

与 租 入 式 硬件 RE 相反 ， 各 种 规模 的 软件 RE 是 一 个 经 过 充分 研究 的 领域 。 从 好 的 方面 说 ， 软 件 
RE 是 实现 面向 对 象 代码 重用 的 有 效 手段 ， 而 从 坏 的 方面 来 看 ， 它 可 以 用 于 规避 复制 保护 ， 从 而 导致 软 
件 遭 盗版 和 偷 穷 。 没 有 迹象 显示 这 些 结论 只 局 限于 软件 。 这 也 是 笔者 的 经 验 ， 藤 人 式 系 统 的 复制 和 设 
计 偷 窃 比 其 他 领域 更 为 普遍 。 这 可 能 是 由 于 这 种 态度 的 差异 或 针对 设计 偷窃 的 法 律 保 护 需 要 变更 。 
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软件 在 嵌 人 式 系统 中 扮演 着 越 来 越 重要 的 角色 ， 虽 然 制造 商 考虑 软件 RE 和 软件 安全 是 明智 
的 ， 但 是 总 体 而 言 ， 它 只 是 软件 RE 和 安全 保护 的 一 个 子 集 。 

然而 ， 嵌 人 式 系统 软件 道 向 工程 的 一 个 重要 子 集 还 有 待 讨论 。 在 典型 的 嵌 人 式 系统 中 ， 它 包 
括 嵌 人 式 操作 系统 、 引 导 加 载 程序 和 软件 的 非 易 失 性 存储 安排 。 考 虑 一 个 典型 的 嵌入 式 系统 ， 如 
先前 图 7-29 讨论 的 那样 。 在 硬件 上 运行 的 通用 实时 操作 系统 包含 存储 在 闪存 上 的 引导 程序 、 操 
作 系统 和 应 用 程序 代码 。 然 而 ， 随 着 嵌 人 式 系统 中 逐渐 使 用 嵌 人 式 Linux， 出 现 了 越 来 越 多 的 差 
异 。 这 种 幅 入 式 Linux 系统 通常 包含 如 下 项 目 : 

。 引导 代码 

。 操作 系统 

。 文件 系统 

。 系统 配置 设置 

e FPGA 配置 数据 

通过 移 开 设备 并 转 储 其 内 容 (静态 分 析 ) ， 或 者 通过 操作 时 用 逻辑 分 析 仪 分 线 总 线 信号 〈 动 
态 分 析 )， 可 以 很 容易 地 提取 非 易 失 性 存储 器 的 内 容 。 逻 辑 分 析 仪 方法 可 以 给 出 上 下 文 相关 的 有 
用 线索 一 一 例如 ， 检 测 到 内 存 读 信号 紧 跟 着 上 电 可 判定 是 引导 代码 。 然 而 ， 这 个 方法 显然 只 揭示 
了 分 析 期 间 访 问 的 内 存 地址 的 内 容 一 一 实际 上 是 目前 的 执行 /访问 轨迹 ， 而 以 这 种 方式 完全 决定 
存储 的 代码 在 大 部 分 真实 系统 中 是 不 可 能 的 。 它 要 求 用 输入 信号 的 每 一 种 可 能 的 组 合 和 时 序 ， 
以 每 一 种 可 能 的 操作 模式 来 操作 系统 ， 以 保证 100% 的 代码 覆盖 率 。 然 而 ， 这 两 种 技术 的 结合 是 
一 个 功能 强大 的 分 析 工 具 。 

地 址 和 数据 总 线 通常 错 杂 在 密集 的 PCB 上 以 辅助 布线 〈 对 它 的 解释 见 框 7.9) 。 使 用 这 两 种 
方法 时 需 注意 这 种 布线 方式 会 使 分 析 复杂 化 。 
总 线 引 脚 交换 

对 像 四 运算 放大 器 这 样 每 个 封装 包含 不 止 一 个 放大 器 的 IC， 它 通常 无 所 谓 哪 一 个 放大 器 使 用 电路 的 某 
个 特定 部 分 。 因 此 ， 在 布局 过 程 中 ， 即 使 原理 图 把 单个 放大 器 与 电路 不 同 的 部 分 连接 在 一 起 ,设计 者 也 可 
以 自由 交换 它们 以 改善 布线 。 这 是 一 个 行 之 有 效 的 技术 。 

事实 上 ， 存 储 设备 也 同样 如 此 。 例 如 ， 虽 然 我 们 自然 会 把 CPU 上 的 DD、D1、D2 和 D3 跟 存 储 设备 上 
的 DD、D1、D2 和 D3 相连 ,但 我 们 仍 可 以 自由 交换 位 线 。 如 果 需 要 我 们 也 可 以 自由 交换 地 址 引 脚 (只 要 
CPU 总 是 用 相同 的 位 宽 访 问 内 存 一 一 否则 只 能 在 字 节 内 交换 ， 而 不 是 字 节 闻 )。 例 如 ， 考 虑 CPU 和 存储 设 
备 之 间 的 字 节 连接 ; 
CPU 数据 引 脚 | 存储 器 数据 引 脚 示 示例 位 

D0 1 



























D1 0 
D2 0 
D3 1 
这 似乎 没有 意义 。 让 我 们 考虑 CPU 写 一 个 字 节 B 到 位 置 A， 并 且 当 从 位 置 A 读 回 时 接收 相同 的 字 节 B， 它 将 
正常 运作 。 字 节 B 在 内 存 中 存储 的 确切 方式 是 不 重要 的 。 当 写 入 到 SRAM 中 ， 地 址 总 线 也 同样 如 此 。 








”CPU 地 址 引 脚 存储 器 地 址 引 脚 | ” ”示例 位 。 | CPU 地 址 引 脚 存储 器 地 址 引 脚 | ”示例 位 
AO A3 1 A6 A9 
Al A2 0 A7 A8 0 
A2 Al 1 A8 A7 
A3 A6 0 A9 AIO 0 
A4 AS 1 Al10 A0 0 
ss wo 1 | 
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这 对 SRAM 没有 问题 ， 但 使 用 闪存 时 存在 一 些 问 题 。 还 记得 7.6.2 节 中 介绍 的 编程 算法 吗 ? 闪存 期 户 
接收 到 特定 的 字 节 模式 ,这 意味 着 在 特定 引 脚 上 的 特定 位 。 如 果 系 统 设计 者 加 扰 (scramble) 数据 总 线 
那么 编程 人 员 不 得 不 解 扰 《descramble) 闪存 控制 字 和 相应 的 地 址 。 例 如 ， 使 用 上 述 加 扰 方 案 ， 如 果 闪 存 
预期 在 地 址 0x0AA 上 收 到 字 节 0x55， 那 么 编程 人 员 需 要 写字 节 0x93 到 地 址 0x115 (如 上 面 的 表格 所 示 ) 。 

这 里 的 总 线 加 扰 是 解决 琅 手 的 PCB 布线 问题 很 常见 的 一 种 手段 。 然 而 ， 使 用 SDRAM 要 非常 小 心 ， 一 
些 地 址 引 脚 专门 用 于 列 地 址 ， 一 些 专门 用 于 行 地 址 ( 见 7.6.3.3 节 )。 此 外 ， 一 些 SDRAM 引 肢 有 其 他 特殊 
的 含义 : 特别 是 对 于 SDRAM， 它 实际 上 是 通过 SDRAM 控制 器 内 的 一 个 写 状态 机 来 编程 ， 这 与 闪存 编程 算 
法 类 似 ， 所 不 同 的 是 SDRAM 不 由 编程 人 员 控制 ， 因 此 不 能 用 软件 进行 解 扰 。 

静态 闪存 分 析 首先 需要 确定 不 同 存储 区 域 的 范围 、 界 限 和 特性 。 在 有 可 控 除 闪存 的 分 隔 符 
的 地 方 ( 即 块 边界 上 以 0xFFFF 或 0xFF 结束 的 长 字符 串 ) ， 这 个 过 程 是 微不足道 的 。 和 否则 ， 引 导 
代码 可 能 从 向 量 表 开 始 并 最 可 能 保留 在 内 存 的 最 低地 址 或 者 一 个 特定 的 引导 块 中 。 一 个 FPGA 编 
程 图 大 约 是 FPGA 数据 表 中 指定 的 大 小 ， 或 者 用 标准 算法 压缩 (zip、gzip 或 压缩 ， 将 从 可 搜索 到 
的 签名 字 节 开始 ) 。 文 件 系 统 将 通过 它 的 结构 识别 (在 Linux 台式 机 上 ， 一 旦 计算 中 某 些 项 目 被 
转 储 用 于 分 析 ，file 命令 可 快速 地 确定 这 些 项 目的 性 质 ) 。Linux 内 核 以 及 其 他 操作 系统 内 核 包 含 
了 不 同 的 签名 码 ， 甚 至 可 能 包含 可 读 的 字符 串 〈 在 Linux 台式 机 上 strings 命令 将 会 找到 并 显 
示 它 们 ) 。 
静态 和 动态 分 析 相 结合 功能 强大 并 可 以 提供 重要 的 存储 器 内 容 信 息 。 人 例如， 系统 配置 数据 
可 以 存储 在 内 存 的 任何 地 方 ， 单 赁 内 容 很 难 确定 。 然 而 ， 简 单 地 操作 设备 和 改变 单一 配置 设置 将 

会 导致 内 存 内 容 的 变化 。 这 可 以 通过 比较 前 后 的 内 容 来 确定 ， 或 者 用 逻辑 分 析 仪 跟踪 写 到 闪存 
地 址 单元 中 的 内 容 。 
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在 极端 情况 下 ， 闪 存 可 被 原样 复制 并 在 复制 品 中 进行 复制 。 总 体 而 言 ， 对 揭示 存储 程序 的 非 
易 失 性 存储 器 进行 逆向 工程 过 程 并 不 难 ， 除 非 设 计 者 专门 采取 措施 来 保护 嵌 人 式 系统 软件 。 


7. 13 ”防止 逆向 工程 


由 于 逆向 工程 的 不 可 阻止 性 ， 这 个 问题 就 转化 为 一 个 经 济 问题 ， 即 我 们 如 何在 最 小 化 自身 
额外 成 本 的 情况 下 ， 最 大 化 党 争 对 手 进行 逆向 工程 的 成 本 。 为 了 分 析 这 个 问题 ,我 们 将 会 借助 
7. 12 节 中 关于 能 人 式 上 下 文 环境 中 的 道 向 工程 的 描述 ， 并 对 它们 进行 分 类 。 首 先 ， 会 基于 实现 
复杂 度 、 成 本 ， 以 及 逆向 工程 实施 者 的 经 济 影响 ， 对 抑制 方法 进行 评级 。 我 们 首先 将 汇集 所 有 艇 
人 式 系统 设计 者 感 兴趣 的 方法 ， 然 后 率 焦 到 其 中 与 计算 机 体系 结构 相关 的 部 分 。 

逆向 工程 抑制 方法 从 技术 上 可 以 分 为 两 个 大 类 : 专注 于 设计 时 期 的 被 动 方法 ， 在 逆向 工程 
攻击 发 生 时 予以 抵抗 的 主动 方法 。 前 者 倾向 于 实施 结构 性 变化 ， 这 在 实现 上 比 后 者 要 廉价 。 我 们 
将 详细 讨论 两 种 方法 。 

道 向 工程 的 成 本 影响 因子 取决 于 道 向 工程 保护 措施 ， 主 要 有 三 个 影响 因子 : 

。 由 于 逆向 工程 系统 而 花费 的 更 多 的 时 间 导 致 劳动 成 本 增加 。 

。 由 于 道 向 工程 对 更 高 层次 专业 技能 的 要 求 而 导致 的 劳动 成 本 增加 。 

。 由 于 针对 逆向 工程 过 程 需要 购买 特殊 的 设备 而 导致 的 成 本 增加 。 

在 某 些 情况 下 ， 如 果 需 要 额外 的 组 件 ， 则 还 会 增加 BOM 成 本 。 

按照 7. 12. 1 节 中 对 逆向 工程 过 程 的 描述 ， 第 一 个 层次 的 保护 可 以 应 用 于 功能 评估 : 逆向 工 
程 阶段 A。 在 这 种 情况 下 ， 限 制服 务 手册 和 文档 的 发 布 ， 可 以 降低 道 向 工程 团队 的 信息 获取 度 。 
制造 商 应 该 控制 、 监 督 ， 甚 至 在 理想 情况 下 限制 员工 不 经 意 地 提供 相关 信息 ， 尤 其 是 上 传 到 网 上 
的 信息 。 这 无 疑 将 会 增加 逆向 工程 所 花费 的 时 间 和 努力 。 

阶段 B， 通 过 使 用 防 算 改 的 配件 (如 torx) 和 定制 的 螺丝 形状 来 使 得 必须 购买 这 些 特殊 的 设 
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备 才 能 进行 物理 结构 的 分 析 ， 以 此 稍微 增加 物理 结构 的 分 析 难 度 。 单 向 螺丝 和 胶 接 外 壳 起 着 相 
似 的 作用 。 全 灌 封 的 PCB 提供 了 另 一 层次 的 保护 。 在 最 小 成 本 的 情况 下 ， 令 人 不 愿 使 用 这 些 方 
法 的 主要 诱因 是 产品 的 可 服务 性 ， 这 通常 是 产品 必须 具备 的 。 

连接 线 没 有 使 用 颜色 编码 可 能 会 使 得 制造 和 服务 过 程 变 得 复杂 ， 但 这 会 给 遂 向 工程 团队 造 
成 更 大 的 困难 ， 从 而 阻碍 他 们 的 工作 。 

不 同 寻 常 、 定 制 和 匿名 的 部 件 会 在 阶段 C 中 使 逆向 工程 的 系统 材料 清单 (BOM) 变 得 复杂 。 
然而 ， 无 源 器 件 《〈 在 阶段 C.2) 会 很 容易 被 移 除 并 对 其 做 单独 的 测试 。 丝 印 的 缺失 会 给 制造 和 服 
务 造 成 一 定 的 困难 ， 但 是 也 会 相应 地 在 阶段 C.3、E. 1、E.2 和 F 减少 提供 给 逆向 工程 团队 的 信 
息 。 但 是 ， 到 目前 为 止 最 为 有 效 的 防止 BOM 被 逆向 工程 师 的 方法 就 是 使 用 定制 芯片 (或 者 使 用 
逆向 工程 团队 无 法 购买 到 的 芯片 ) 。 在 阶段 C.1， 逆 向 工程 师 面 对 的 是 大 量 无 标记 的 最 小 化 无 源 
器 件 组 成 的 集成 电路 ， 没 有 丝印 ， 也 没有 更 进一步 的 信息 ， 这 的 确 会 有 效 地 给 他 们 的 逆向 工程 增 
加 困难 和 花费 。 确 认 并 复制 或 者 只 是 确认 芯片 就 会 显著 增加 他 们 的 开销 和 前 期 成 本 ， 这 样 高 的 
成 本 只 有 在 大 规模 生产 时 才 是 经 济 可 行 的 。 

从 最 佳 安全 性 考虑 ，JTAG (7.9.3 节 ) 和 其 他 的 调试 端口 都 应 该 从 半 定 制 的 芯片 上 移 除 ， 
而 且 不 要 从 标准 部 件 连接 到 连接 器 或 者 测试 板 上 ， 更 不 应 该 标记 上 TDI、TDO、TMS、TCK。 对 
于 有 引 脚 暴露 在 外 的 封装 器 件 ， 这 些 还 是 很 容易 被 访问 到 。 这 种 情况 下 ，BGA ( 球 机 阵列 ) 器 
件 就 是 首选 。 但 即使 是 BGA 器 件 ， 未 布线 JTAG 引 脚 往往 仍 可 以 通过 从 PCB 的 男 一 面 深度 钻探 
而 被 访问 到 ， 这 意味 着 背靠背 式 的 BGA 布局 是 最 安全 的 〈 例 如 ,在 PCB 的 一 侧 放置 BGA CPU， 
而 在 其 正 下 方 的 板 对 面 安 装 BGA 闪存 设备 ) 。 这 种 做 法 的 劣势 在 于 双 面 布局 会 增加 制造 的 成 本 。 
双 面 的 BGA 仅仅 是 更 贵 的 一 步 ， 并 不 一 定 能 防止 逆向 工程 ， 因 为 还 是 有 可 能 (虽然 极其 困难 ) 
移 除 BGA 器 件 ， 重 新 形成 焊 球 ， 然 后 改装 成 一 个 焊接 到 PCB 上 的 载体 的 。 通 过 载体 的 中 间 信 号 
可 以 用 于 分 析 。 

背靠背 式 的 BGA 封装 通常 需要 盲 孔 或 者 替 孔 ， 这 会 使 得 PCB 制造 成 本 增加 (根据 经 验 是 
0% 布 后 过 得 电 灾 得 复杂 ， 从 而 明显 影响 硬件 滑 试 所 需要 的 改动 。 然 而 ， 紧 关 的 PCB 也 
为 产品 的 一 个 特点 。 相 应 地 ，PCB 的 层 数 也 经 常 需要 增加 以 适应 背靠背 式 的 布局 ， 因 此 也 增加 了 
逆向 工程 中 划分 层次 和 和 逐 层 分 析 的 成 本 。 对 于 多 层 的 PCB 设计， 通过 使 用 X 射线 在 阶段 已 2 和 
E. 3 来 分 析 布局 的 细节 是 很 困难 的 ， 并 且 通 过 对 所 有 可 用 空间 填补 电源 平面 的 方法 ， 可 以 使 得 这 
种 分 析 更 加 复杂 化 。 电 源 平面 的 填充 会 在 X 射线 照片 上 形成 交 又 阴影 线 ， 掩 盖 内 层 的 单个 器 件 
的 信息 。 

在 .2 阶段 ， 当 器 件 以 非 寻 常 的 方式 来 操作 时 ， 如 跳 蚂 的 地 址 和 数据 总 线 ， 电气 连接 就 会 
很 难 确定 。 连 接 没有 使 用 的 引 脚 在 不 增加 制造 成 本 的 同时 ， 却 给 逆向 工程 增加 了 困难 。 


7. 13. 1 存储 程序 的 被 动 模糊 


对 于 和 仍 人 式 系统 中 存储 的 代码 ， 可 以 找到 很 多 结构 化 的 方法 来 使 之 产生 模糊 ， 这 使 得 RE 的 
G. 1 和 G. 2 变 得 更 加 复杂 。 我 们 不 会 更 多 地 讨论 这 个 问题 ， 因 为 这 是 一 个 热门 的 研究 领域 。 然 
而 ， 这 里 有 另外 一 些 体 系 结构 方面 的 问题 我 们 可 以 进行 探讨 。 

首先 ， 如 前 所 述 ， 代 码 段 之 间 的 部 分 (内 存 中 非 可 擦 除 部 分 ) 可 以 填充 随机 数字 或 者 元 余 
代码 ， 致 使 对 于 分 离 内 存 区 域 的 监测 没有 意义 。 与 初始 引导 代码 不 同 ， 闪 存 的 其 他 部 分 同样 可 以 
被 加 密 ， 如 果 不 需 要 从 闪存 执行 代码 的 话 。 这 将 使 对 于 闪存 内 容 的 分 析 变 得 困难 。 然 而 ， 对 于 未 
被 加 密 的 引导 代码 ， 则 很 容易 追踪 和 分 解 ， 并 从 中 发 现 系 统 未 加 密 的 人 口 点 ， 致 使 这 种 加 密 策略 
的 安全 性 受到 质疑 。 

在 闪存 范围 内 分 散 代码 、 数 据 和 配置 内 容 将 会 带 来 一 些 编程 上 的 困难 ， 但 是 却 是 应 对 存储 
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程序 分 析 的 主要 保护 手段 。 如 果 一 个 FPGA 图 像 被 存储 在 闪存 中 ， 那 么 一 种 简单 的 模糊 方法 是 对 
其 每 个 数据 字 节 与 内 存 其 他 某 区 域 中 的 数据 字 节 做 异 或 运算 ， 并 存储 成 一 种 定制 的 压缩 FPCA 图 
像 (不 是 gzip、zip 或 者 相似 的 有 可 识别 签名 的 方式 ) 。 

这 里 所 讨论 的 几 种 防止 RE 的 方法 在 表 7-4 中 汇总 给 出 。 其 中 ， 增 加 的 RE 成 本 和 所 付出 的 
设计 成 本 以 及 对 制造 的 影响 以 一 种 5 点 评分 法 来 标注 。 


表 7-4 增加 硬件 逆向 工程 成 本 的 被 动 方法 评定 指标 ，5 = 增加 得 最 多 ，0 = 增加 得 最 少 








































设计 成 本 | 送 向 工程 成 本 | 制造 影响 设计 成 本 | 逆向 工程 成 本 | 制造 影响 

防 算 改 螺钉 2 1 “| 言 孔 或 再 孔 2 4 
胶 接 外 壳 1 1 “| 总线 信 号 跳跃 1 

灌 寺 1 2 “| Asrc 信号 路 由 5 

无 丝印 1 1 ”| FpCA 信号 路 由 | 2 

擦 除 元 件 标识 符 1 2 | 无 调试 端口 | 1 

使 用 BCA 封装 1 3 | 症 随机 填充 未 使 用 的 内 存 | ”2 

只 有 内 层 布线 2 3 


























7. 13.2 可 编程 逻辑 家 族 


基于 SRAM 的 FPGA 通常 需要 一 种 配置 比特 流 。 这 种 比特 流 由 外 部 器 件 提供 ， 例 如 串 行内 在 
配置 器 ， 或 者 像 示 例 系统 那样 由 微 处 理 器 提供 。 因 为 物理 上 这 种 比特 流 可 以 通过 很 小 的 代价 获 
得 ， 所 以 经 常会 通过 读 出 和 复制 的 方式 拷贝 这 种 固件 。 

基于 EEPROM 的 可 编程 逻辑 器 件 (PLD) (代替 了 EPROM 版 本 ) 和 新 型 的 基于 闪存 的 产品 
更 为 安全 ， 因 为 配置 程序 贮存 在 内 部 ， 无 需 在 复位 时 传递 到 设备 中 。 注 意 一 些 带 有 闪存 设备 实际 
上 包含 两 个 健 片 ， 一 个 存储 芯片 和 一 个 逻辑 芯片 ， 因 此 使 安全 性 降低 ， 因 为 一 旦 外 封装 被 拆除 就 
可 以 读 取 到 配置 比特 流 。 通 常 来 讲 ， 那 些 在 复位 之 后 需要 马上 配置 的 设备 通常 包含 分 布 在 硅 片 
周围 的 非 易 失 内 存单 元 ， 在 复位 后 需要 几 毫 秒 进行 配置 ， 其 间 配 置 比 特 流 可 以 被 获取 。 在 任何 一 
种 情况 下 ， 包 括 从 Altera 到 Xilinx 在 内 的 大 多 数 设备 ， 都 会 提供 安全 设置 以 阻止 从 正在 配置 的 设 
备 中 读 取 比特 流 。 在 此 强烈 建议 使 用 这 种 特性 。 

在 通常 的 单元 结构 设备 中 ,包括 掩 模 编程 门 阵 列 (MPGA) ， 内 存 配置 单元 的 位 置 是 已 知 的 ， 
根据 设备 制造 商 的 设备 分 类 可 以 确定 。 通 过 使 用 7. 12. 2. 2 节 介 绍 的 方法 ， 配 置 数据 和 原始 程序 
就 可 以 被 获 了 到， 虽然 这 也 需要 复杂 的 技术 支持 。 

通过 逐 层 分 析 硅 片 〈《 类 似 于 PCB 划分 ， 但 需要 对 硅 层 进行 细致 的 研磨 ) ， 一 个 全 定制 ASIC 
也 可 以 被 逆向 工程 化 。 但 是 可 以 通过 一 些 策略 使 之 复杂 化 ， 例 如 加 入 网 状 覆 盖 层 。 反 人 熔 丝 (anti- 
fuse) FPGA 通常 被 看 做 是 一 种 最 安全 的 标准 可 编程 钦 辑 设备 ， 因 为 其 熔 丝 位 置 在 较 深 的 硅 布线 
层 之 下 ， 而 不 是 暴露 于 表面 。 


耗费 大 量 的 时 间 。 


7.13.3 主动 RE 防范 


在 7. 13. 1 节 中 提供 的 被 动 RE 防范 方法 也 有 主动 版 本 。 可 以 通过 使 用 处 理 器 多 余 的 输入 和 
输出 管 脚 路 由 那些 时 间 上 不 关键 但 功能 关键 的 信号 ， 从 而 达到 模糊 电气 连接 的 目的 。 

跳跃 地 址 和 数据 总 线 对 于 RE 来 说 已 经 很 困难 了 ， 而 动态 跳跃 总 线 将 会 使 RE 更 加 困难 ， 但 
同时 也 增加 了 为 防范 RE 所 付出 的 代价 ， 因 为 主动 设备 必须 增加 跳跃 / 解 跳跃 总 线 的 功能 。 
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ASIC 有 可 能 是 防范 RE 企图 的 最 终 方法 ,但 看 似 平常 的 FPGA 方法 也 会 相当 高 效 。 在 这 两 种 
情况 中 ， 在 逻辑 电路 中 实现 的 IP 核心 (将 会 在 第 8 章 讨论 ) 不 容易 辨识 和 分 离 出 来 ， 且 可 以 通 
过 各 种 方法 存 取 外 部 存储 程序 一 一 可 以 线性 地 、 非 线性 地 存 取 ， 或 者 使 用 置换 或 加 密 方 法 。 一 个 
完全 定制 且 没 有 任何 公开 文档 的 CPU 内 核 可 以 通过 保护 指令 集体 系 结构 细节 进一步 增加 安全 性 。 
进而 ， 在 每 个 版 本 的 产品 实现 中 对 指令 集 可 以 稍 加 变化 从 而 防止 对 核心 程序 反复 RE。 这 是 一 个 
不 昂贵 的 软件 /固件 保护 措施 。 


7.13.4 主动 RE 防范 分 类 


RE 防范 (RE mitigation) 的 基本 形式 可 以 从 两 个 方向 上 细 分 : 一 是 主动 模糊 方法 ， 即 隐藏 ; 
二 是 达到 主动 模糊 目的 的 时 间或 空间 方法 。 任 何 现实 系统 都 可 以 通过 结合 这 些 方法 达到 最 大 化 
的 效果 。 

信息 隐藏 (information hiding) 利用 现 有 资源 通过 各 种 方法 对 攻击 者 隐藏 信息 。 通 常 采 用 的 
方法 是 组 合 代码 与 数据 ， 将 软件 隐藏 在 像 启 动 引导 有 映像 这 样 的 数组 中 ， 或 以 不 明显 的 方式 读数 
据 来 实现 信息 共享 。 还 包括 在 边界 电压 上 运行 设备 ， 依 靠 非常 规 握 手 和 数据 处 理 策 略 等 。 

模糊 主要 作为 一 种 被 动 方法 〈 例 如 在 程序 中 交换 标签 名 和 功能 名 ， 或 者 摘 乱 PCB 丝印 注 
释 ) ， 它 也 可 以 用 于 主动 防范 ， 例 如 改变 总 线 连接 和 设备 管 脚 使 用 方式 〈 如 多 路 选 通 中 断 输入 管 
脚 和 信号 输出 管 脚 ) 。 这 是 又 一 种 利用 已 有 资源 进行 专门 的 设计 ， 误 导 RE 团队 使 RE 过 程 复杂 化 
的 方法 。 

还 可 以 增加 一 些 资源 刻意 误导 或 扰乱 RE 团队 。 其 中 可 能 包括 大 量 的 伪 随 机 数据 传输 、 乱 序 
代码 读 取 等 。 也 可 以 在 传输 信号 上 释 加 上 和 随机 调制 的 电压 信号 ， 或 采用 有 某 种 意义 的 信号 驱动 
元 余 信 号 线 。 动 态 地 看 ， 这 或 许 包 括 一 些 基于 算 改 监测 的 模式 变化 或 相应 的 极端 反应 。 

空间 方法 作用 于 布局 和 联通 层 ， 例如， 根据 存储 器 地 址 加 扰 总 线 顺序 ， 以 不 明显 的 方式 开关 
过 号 路 径路 由 设备 。 

时 间 方法 通过 修改 事件 序列 或 时 间 来 实现 模糊 。 例 如 ， 引 导 加 载 程序 只 执行 所 取 人 指令 的 
一 个 子 集 。 广 如， 一 个 能 够 从 存储 器 中 预 取 代码 页 的 存储 管理 器 件 以 非 线 性 方式 存 取 ， 尤 其 是 与 
执行 顺序 不 一 致 。 

这 些 分 类 组 合 如 表 7-5 所 示 ， 其 中 标 出 了 相关 强度 级 别 。 





表 7-5 主动 防范 方法 的 相关 强度 ，5 一 一 最 高 ,0 一 一 最 低 























从 开销 上 说 ， 与 静态 方法 相 比 动态 方法 用 于 开发 、 调 试 和 测试 的 开销 会 更 多 ， 同 时 还 会 增加 
制造 和 服务 成 本 。 信 息 隐藏 和 模糊 方法 的 开发 成 本 类 似 ， 主 要 是 增加 了 NRE。 而 刻意 扰乱 方法 
与 前 两 种 方法 相 比 无 疑 会 带 来 更 多 的 开发 成 本 ， 且 会 提高 制造 成 本 。 

很 显然 用 户 定制 芯片 通过 实现 主动 模糊 和 保护 措施 可 以 提供 最 大 程度 的 保护 。 在 出 于 安全 
目的 构建 全 定制 ASIC 时 ， 如 果 开 发 者 比较 在 乎 成 本 ， 可 以 考虑 开发 一 些 通用 全 定制 安全 ASIC ， 
以 适用 于 一 系列 产品 之 中 。 对 于 RE 而 言 ， 若 设计 采用 了 主动 保护 方法 ， 特 别 是 动态 时 间 方 法 ， 
则 意味 着 需要 有 技术 更 加 高 超 的 工程 师 队 伍 ， 他 们 需要 使 用 一 些 专门 设备 。 例 如 ， 若 要 分 析 以 最 
低 限 度 工作 的 时 序 信号 ， 则 需要 使 用 带 有 非常 低 电 容 有 源 探测 器 的 高 速 数 字 示 波 哄 ， 甚 至 使 用 
超 导 量 子 干 涉 设备 〈SQUID ) 。 对 于 非常 规 握手 机 制 的 分 析 则 需要 多 信道 向 量 分 析 仪 。 








363 














364 








236 








365 











366 


第 7 章 ”实用 嵌入 式 CPU 


7.14 小 结 


本 章 讨论 了 计算 领域 的 一 些 实际 问题 ， 比 如 存储 技术 、 片 上 外 设 、 时 钟 策略 和 复位 信和 号 部 署 


等 。 骨 入 式 系统 通常 会 受到 内 存 短 缺 的 困扰 ， 这 可 以 通过 使 用 内 存 分 页 和 重奏 技术 缓解 。 我 们 还 
以 广泛 使 用 的 府 和 人 式 Linux 操作 系统 为 例 分析 了 典型 谋 人 式 系统 的 存储 结构 。 


看 门 狗 定 时 器 是 一 种 确保 实时 嵌入 式 系统 可 靠 性 的 有 效 手 段 。 针 对 可 靠 性 问题 ， 我 们 还 讨 


论 了 错误 检测 和 纠正 。 


因为 CPU 速度 越 来 越 快 且 越 来 越 复杂 ， 由 此 增加 了 制造 和 开发 难度 ， 为 此 需要 测试 和 验证 。 


该 问题 我 们 从 三 个 方面 进行 了 讨论 : IC 制造 、 系 统制 造 和 运行 过 程 。 


最 后 讨论 了 逆向 工程 相关 问题 。 这 是 一 个 与 伐 和 人 式 系统 休戚 相关 的 问题 ， 尤 其 是 那些 消费 


类 设备 。 我 们 讨论 了 恶意 逆向 工程 的 执行 过 程 ， 并 介绍 了 几 种 防范 逆向 工程 的 方法 。 


7.1 
7.2 


7.3 


7.4 
7.5 
7.6 
7.7 


7.8 
7.9 


确定 在 戏 人 式 系统 中 可 以 使 用 片上 系统 〈S$oC) 处 理 器 的 4 个 因素 。 
根据 下 列 所 需 功 能 ， 列 出 在 微 控 制 器 上 实现 可 编程 VO 管 脚 的 最 少 控制 寄存 器 设置 : 
(1) 可 以 配置 通用 输入 /输出 〈GPIO) ， 或 者 一 个 内 置 的 外 部 设备 的 专用 输出 〈 如 UART) 。 
(2) 当 在 GPIO 模式 时 ， 可 以 配置 为 输入 或 是 输出 。 
(3) 每 个 引 脚 都 可 以 单独 读 取 和 写 人 。 
你 是 否 会 期 望 一 个 单 芯 片 微 控制 器 或 四 核 高 速 服务 器 处 理 器 在 内 存 方 面 投入 更 大 比例 的 硅 片 面积 。 通 
过 在 这 两 种 类 型 机 器 上 的 应 用 来 证 明 你 的 回答 。 
列举 几 种 在 过 去 二 二 十 年 中 ， 半 导体 设计 者 为 减少 CPU 传输 延迟 而 采用 的 方法 。 
对 于 计算 机 系统 的 时 钟 策略 (或 时 钟 本 身 ) 进行 怎样 的 变化 可 减少 系统 产生 的 电磁 干扰 (EMI) 。 
在 靠近 CPU 的 电源 引 脚 处 放置 什么 样 的 外 部 器 件 可 以 减少 EMI 的 产生 ?为 什么 ? 
在 下 面 列 出 的 应 用 中 ， 指 明 最 合适 的 存储 技术 。 . 
a，MP3 播放 器 需要 以 350Kbit/s 的 速率 从 8GB 存储 器 中 访问 音频 数据 。 即 使 电源 关闭 ， 数 据 (你 的 歌 
曲 ) 也 应 该 保留 在 存储 器 中 。 
b, 一 个 简单 的 很 小 的 髋 入 式 系统 的 程序 存储 器 ， 只 执行 一 个 任务 。 制 造 商 会 制造 几 百 万 个 这 种 器 件 ， 
不 需要 提供 可 再 次 编程 功能 。 
c. 在 个 人 数字 助理 中 ，256MB 系统 存储 内 置 于 ARM9 向 入 式 系统 中 ,运行 先进 的 坎 人 人 式 操 作 系 统 ， 
如 嵌 人 式 Linux。 
d 在 上 述 系 统 中 已 包含 一 个 16MB 的 非 易 失 程序 存储 器 ， 用 于 存放 操作 系统 的 例 程 ， 且 程序 直接 从 那 
里 执行 。 
e. 在 一 个 小 的 说 入 式 系 统 中 ，4 KB 运行 时 存储 连接 到 一 个 中 等 大 小 的 微 控制 器 。 
可 选 存 储 技术 (一 个 应 用 选择 一 种 存储 技术 ) 如 下 : 
。 串 行内 存 
。 并 行内 存 
e SDRAM 
e SRAM 
ss RAM 
说 出 7 个 在 姐 和 人 式 系统 中 引导 加 载 程序 (例如 u-Boot〉 的 常用 功能 。 
一 个 BGA 封装 的 典型 符 入 式 系统 CPU 安装 在 原型 谋 人 式 系统 的 PCB 上 。 设 计 师 怀疑 有 焊接 故障 致使 
系统 不 能 止 确 运行 。 列 出 两 种 识别 潜在 问题 的 方法 。 


7.10 一 个 字 季 0xF3 通过 丙 个 半 字 节 的 方式 在 有 吧 声 的 无 线 信道 中 传输 ， 每 半 字 节 都 使 用 汉 明 (7，4) 码 进 
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行 编码 。 请 参阅 框 7. 7 的 方法 ， 以 十 六 进 制 的 形式 写 出 这 两 个 7 位 编码 。 

重复 问题 7. 10 的 汉 明 编码 问题 ， 这 次 使 用 框 7.8 的 方法 传输 字 节 0xB7。 

请 确定 3 个 主要 的 原因 ， 为 什么 必须 在 嵌 和 人 式 系统 中 加 入 逆向 工程 保护 ， 但 会 稍微 减少 制造 商 的 
利润 。 

在 戏 人 式 系 统 中 ， 为 了 确定 以 下 几 个 方面 ， 道 向 工程 团队 如 何 利 用 JTAG 到 CPU 的 连接 。 

a 识别 CPU 

b. 电路 连接 和 系统 原理 图 

c 安装 在 系统 中 的 非 易 失 性 存储 器 (闪存) 的 内 容 

为 什么 这 么 多 的 SoC 微 处 理 器 使 用 32. 768kHz 晶振 ? 

什么 是 时 钟 拌 动 ? 它 如 何 影 响 处 理 器 的 最 快 时 钟 速度 ? 

如 果 将 字 节 0xA7 编程 到 并 行内 存 的 一 个 位 置 ， 其 后 又 将 字 节 0x9A 编程 到 同样 的 位 置 (在 两 次 操作 
之 间 没 有 擦 除 ) ， 之 后 闪存 的 这 个 位 置 包含 的 是 什么 值 ? 

EPROM 存储 设备 有 一 个 小 玻璃 窗口 ， 它 可 以 用 来 接收 紫外 线 以 氛 除 存储 器 阵列 。 闪 存 〈 以 及 FEEP- 
ROM) 存储 器 内 容 电 可 擦 除 。 说 明 闪 存 技术 与 EPROM 相 比 的 两 个 优势 。 

想象 一 下 ， 你 在 领导 一 个 小 型 设计 团队 设计 新 的 嵌 人 式 产品 : 硬件 已 经 准备 好 了 ， 软 件 工程 师 基本 
完成 了 系统 代码 。 系 统 中 有 大 量 的 串 行内 存 ,， 但 是 只 有 少量 的 SRAM 可用。 上 距离 推出 产品 的 时 间 只 
有 几 个 星期 了 ， 软 件 开 发 团队 发 现 无 法 在 SRAM 中 运行 代码 ， 也 没有 办 法 减 小 代码 规模 。 在 不 改变 
硬件 的 情况 下 ， 提 出 一 种 存储 解决 方案 来 解决 该 问题 。 

一 个 JTAG 扫描 链 可 能 有 几 百 位 长 。 这 条 串 行 链 可 以 向 CPU 的 扫描 路 径 中 输入 以 改变 其 行为 ， 也 可 
以 从 CPU 中 输出 以 读 取 其 状态 。 举 例 说 明 一 些 位 的 含义 〈 即 它们 能 改变 什么 行为 ， 它 们 能 确定 什么 
状态 )? 

如 何 利 用 三 重 模 块 元 余 确定 正确 的 计算 输出 ?假设 3 个 相同 的 块 在 一 个 故障 系统 各 自 的 输出 为 
0xB9、0x33 和 0x2B ， 基 于 此 阐述 你 的 答案 。 如 果 这 些 输出 接 到 一 个 按 多 数位 选取 的 选举 器 上 ， 系 统 
的 最 后 输出 字 节 应 该 是 什么 ? 
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在 前 面 几 章 里 ,我 们 已 经 介绍 了 很 多 用 于 微 处 理 器 的 从 简单 到 高 级 的 概念 ， 这 些 概念 贯穿 
于 整个 计算 机 体系 结构 学 科 。 

本 章 我 们 将 继续 介绍 这 些 知识 并 在 实际 应 用 中 进行 巩固 。 我 们 以 一 个 真实 的 处 理 器 为 例 进 
行 介绍 ， 这 个 处 理 器 可 以 让 一 般 的 圣人 式 工 程 师 进行 设计 、 修 改 、 使 用 和 复 用 。 我 们 通过 软 核 
( soft core) 在 徐 人 式 系统 中 的 使 用 来 完成 相关 实例 的 阐述 。 


8. 1 软 核 处 理 器 


所 谓 软 核 〈 或 者 软 处 理 器 ) 是 指 用 逻辑 描述 语言 编写 的 CPU 设计 ， 且 该 设计 可 以 在 可 编程 
逻辑 器 件 上 进行 综合 。 一 般 采 用 Verilog 或 者 VHDL2 高 级 语言 ， 并 最 终 在 FPGA 上 进行 综合 。 

这 不 同 于 大 部 分 处 理 器 制造 商 的 角度 ， 他 们 尽 可 能 地 针对 半导体 制造 工艺 进行 更 低层 次 的 
设计 ， 这 样 做 的 目的 是 使 半导体 芯片 获得 更 好 的 性 能 表现 。 有 时 候 ， 对 于 一 个 特定 的 处 理 器 会 有 
定制 及 软 核 两 种 设计 ， 比 如 我 们 所 熟悉 的 ARM,， 在 这 些 案例 中 ， 软 核 设计 会 表现 出 较 弱 的 性 能 
( 主 频 较 慢 ， 功 耗 较 高 ) ， 但 是 软 核 设计 却 在 使 用 中 拥有 更 高 的 灵活 性 。 

目前 有 很 多 软 核 处 理 器 ， 并 且 大 部 分 可 以 免费 获得 。 这 些 软 核 处 理 器 在 FFGA 上 实现 后 ， 
其 效率 、 速 度 及 成 本 几乎 无 法 与 定制 的 微 处 理 器 相 比 。 

其 他 的 可 能 性 就 是 使 用 商用 软 核 一 一 目前 主流 FPGA 厂商 都 拥有 自己 的 软 核 一 一 或 者 设计 用 
户 自己 的 核 。 我 们 首先 剖析 若 于 软 核 ， 然 后 介绍 获得 核 的 三 种 主要 途径 ， 最 后 设计 一 个 完整 的 定 
制 核 并 运用 本 书 前 面 描述 的 很 多 技术 。 


8.1.1 微 处 理 器 不 仅仅 有 处 理 器 核 


一 个 在 FFGA 上 实现 的 软 核 处 理 器 ， 是 一 个 能 像 CPU 那样 运行 的 逻辑 块 。 简 单 地 说 ， 这 
块 逻辑 能 够 在 时 钟 的 控制 下 工作 ， 可 以 加 载 数据 并 且 按 照 指 定 的 程序 进行 处 理 。 程 序 可 以 存 
放 在 FPGA 内 部 ， 也 可 存放 在 外 部 存储 器 上 ， 比 如 在 大 多 数 的 租 人 和 人 式 系 统 中 均 采 用 RAM 或 者 
闪存 。 

以 上 的 这 种 存储 安排 很 好 ， 但 是 ， 微 处 理 器 不 仅仅 只 是 处 理 器 核 。 参考 7.2 节 中 讨论 的 三 星 
S3C2410 基于 ARM 微 处 理 器 的 特点 ， 有 一 个 关于 其 内 部 特征 及 其 外 部 设备 的 很 长 的 列表 ， 主 要 
包括 : 





16KiB 的 指令 存储 器 和 16KiB 的 高 速 数据 缓存 ， 并 有 MMU。 
用 于 外 部 SDRAM 的 存储 控制 器 。 

彩色 LCD 控制 器 。 

大 量 串 行 端口 ， 比 如 UART、SPI、IFrDA、USB 、IIC 等 。 
SD 存储 卡 及 MMC 存储 卡 接口 。 

一 个 8 路 10 位 的 模 数 转换 器 和 触摸 屏 接 口 。 





VHDL 代表 VHSIC 硬件 描述 语言 ， 其 中 VHSIC 是 指 其 高速 集成 电路 。 
这 里 指 的 是 针对 免费 处 理 器 和 其 他 “IP” 核 (IP 是 指 知识 产权 ) 的 项 目 集合 ， 见 www, opencores. org。 


DO 
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。 拥有 日 历 功能 的 实时 时 钟 。 

显然 ， 该 处 理 器 核 自身 〈 只 是 附带 地 作为 一 个 条 目 ， 并 没有 被 列 人 三 星 自 己 的 文档 中 ) 仅 
仅 是 由 一 小 部 分 命 为 S3C2410 的 集成 电路 组 成 ， 可 以 在 市 场 上 买 到 并 应 用 在 嵌 人 式 系统 中 。 

进一步 来 说 ， 如 果 一 个 工程 师 得 到 了 一 个 用 高 级 硬件 描述 语言 (HDL) 编写 的 ARM 处 理 器 
核 ， 并 将 其 加 载 到 一 个 FPGA 中 ,他 仍旧 没有 获得 一 个 完全 的 微 处 理 器 。 此 外 ，FPGA 不 可 能 达 
到 S3C2410 的 200MHz 频率 (尽管 现在 的 FPGA 工艺 据 称 支持 1GHz 的 时 钟 频率 ) 。 

更 多 的 工作 是 需要 在 FPCA 上 实现 全 部 其 他 外 部 设备 及 接口 ， 而 这 也 将 给 FGPA 带 来 更 大 的 
负担 ， 最 终结 果 是 整个 处 理 器 更 慢 、 功 耗 更 高 并 且 在 价格 上 将 远 远 高 于 一 个 现成 的 ARM 处 理 器 。 

那么 前 述 了 这 人 么 多 缺点 ， 为 什么 还 有 很 多 人 考虑 使 用 软 核 ? 


8. 1.2 软 核 处 理 器 的 优点 


在 世界 范围 内 ， 大 约 有 数 百 万 的 系统 在 使 用 软 核 处 理 器 ， 尽 管 这 个 数量 要 远 远 小 于 达 数 百 
亿 的 ARM 设备 。 但 是 ， 肯 定 有 更 好 的 理由 去 选择 软 核 处 理 器 。 让 我 们 从 性 能 、 可 用 性 和 效率 这 
三 个 方面 来 考虑 这 些 理由 。 

8. 1.2.1 性 能 





由 于 之 前 我 们 提 到 过 软 核 处 理 器 一 般 都 比 专用 器 件 要 慢 ， 因 此 性 能 这 个 指标 明显 应 该 是 标 
准 微 处 理 器 的 优势 。 这 些 是 毋庸 置疑 的 ， 不 过 需要 注意 的 是 有 一 些 性 能 指标 比 时 钟 频 率 更 重要 ， 
。 并 行 系统 允许 多 个 处 理 器 或 者 处 理 器 核 并 行 地 实现 或 者 运行 。 我 们 可 以 很 容易 地 将 几 个 
或 多 个 软 核 集成 进 单个 FPCA 中 ， 并 组 成 一 个 并 行 系统 。 就 像 目前 大 部 分 人 遇 到 的 问题 
一 样 ， 如 何 高 效 地 使 用 这 些 多 核 系统 是 一 个 不 能 被 忽视 的 问题 。 
。 复杂 指令 集 计 算 机 〈CISC) 被 公认 为 是 程序 员 创 建 定制 指令 的 通用 方法 。 相 反 ， 精 简 指 
令 集 计 算 机 (RISC) 消除 了 具有 更 高 复杂 性 或 者 较 少 通用 性 的 指令 ， 而 将 注意 力 放 在 了 
让 最 具 通 用 性 的 指令 运行 更 快 上 〈 这 样 ， 复 杂 的 CISC 指令 可 以 通过 多 个 简单 的 RISC 指 
令 来 完成 ) 。 然 而 ， 在 一 个 嵌入 式 系统 中 ,往往 代码 规模 较 小 并 且 固 定 ， 这 样 我 们 可 以 
选择 一 个 不 同 的 指令 集 来 完成 相应 的 功能 。 比 如 ， 在 一 个 系统 中 有 很 多 除法 运算 但 没有 
逻辑 操作 ， 那 么 最 适合 的 RISC 处 理 器 应 当 有 一 个 除法 器 并 有 很 少 的 逻辑 指令 。 在 这 里 代 
码 事先 已 知 并 且 固 定 ， 为 了 能 够 快速 执行 这 些 代 码 ， 需 要 定制 设计 指令 集 。 
。 尽管 没有 为 适应 特定 的 代码 段 而 修改 指令 集 ， 但 对 于 一 个 在 FPCA 里 给 定 的 处 理 器 核 ， 
我 们 通常 是 增加 一 个 专门 的 功能 单元 或 者 协 处 理 器 。 在 上 述 的 例子 中 ， 我们 会 选择 对 一 
个 标准 核 增加 一 个 除法 器 。 而 现成 的 处 理 器 却 无 法 在 内 部 增加 除法 器 ， 尽 管 它 有 外 部 协 
处 理 器 接口 。 
。 软 核 通 常用 VHDL 或 者 Verilog 编写 。 它 们 通常 不 包含 复杂 的 总 线 ， 也 不 包含 存储 (有 了 时 
连 cache 也 没有 ) 。 设 计 者 使 用 这 些 软 核 时 必须 编写 总 线 和 存储 来 配合 软 核 的 使 用 。 这 是 
个 缺点 ， 但 针对 具体 应 用 编写 定制 化 总 线 ， 也 有 可 能 使 缺点 变 为 优点 。 相 比 之 下 ， 一 个 
现成 的 处 理 器 有 可 能 搭配 了 一 个 总 线 方 案 ， 而 该 总 线 与 其 实际 应 用 并 不 是 完全 相配 。 
8. 1.2.2 可 用 性 
对 于 软 核 ， 其 可 用 性 有 两 层 含义 。 第 一 层 就 是 如 何 能 容易 地 获得 并 使 用 软 核 ， 第 二 层 就 是 能 
够 确保 所 获得 的 软 核 按 照 需求 正确 运行 。 我 们 将 就 这 两 层 含义 分 别 进行 阐述 : 
。 使 CPU 的 设计 标准 化 对 于 产品 设计 者 而 言 就 是 痛苦 之 源 (包括 作者 自己 在 职业 生涯 早期 
时 ) ， 他 们 为 了 让 其 产品 发 布 而 一 直 努 力 地 工作 ， 但 是 很 快 会 收 到 CPU 厂商 的 通知 ， 说 
他 们 设计 的 CPU 宣告 失败 。 这 些 对 软件 和 硬件 来 说 都 需要 一 个 非常 基础 性 的 重新 设计 。 
而 这 种 重新 设计 的 问题 不 仅仅 存在 于 大 公司 中 ， 对 于 中 小 型 圣 人 式 系统 公司 来 讲 也 普遍 
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存在 。 那 么 ， 考 虑 一 下 拥有 一 个 自主 CPU 设计 的 吸引 力 ， 它 可 以 让 你 永远 与 喜欢 消减 成 
本 的 半导体 厂商 保持 在 一 条 起 跑 线 上 。 你 可 以 改动 你 自己 的 CPU， 复 用 它 的 软件 代码 ， 
复 用 硬件 ， 随 心 所 和 欲 地 扩展 及 升级 。 尽 管 软 核 处 理 器 最 终 是 在 FPGA 上 进行 综合 ， 并 且 
具体 的 FPGA 可 能 会 走向 生命 的 终点 ， 不 过 你 可 以 很 容易 地 将 自己 的 CPU 移植 到 另外 一 
块 FPGA 上 ， 同 样 的 代码 、 同 样 的 处 理 器 将 运行 在 新 的 FFGA 上 ， 也 许 会 比 之 前 更 快 
一 点 。 

在 欧洲 及 北美 以 外 的 设计 师 也 体会 到 了 相同 的 问题 。 新 款 CPU 在 这 些 国家 的 市 场 里 上 市 
通常 会 很 缓慢 ， 并 且 很 难 让 用 户 买 到 。 对 于 一 个 需要 购买 上 万 个 CPU 的 公司 来 讲 这 通常 
不 会 成 为 问题 ,但 是 对 于 中 小 型 诅 和 人 式 公 司 来 讲 ， 这 是 个 很 严重 的 问题 。 例 如 ， 在 新 加 
坡 ， 作 者 每 次 购买 这 些 CPU， 都 不 得 少 于 100 件 ， 这 很 不 利于 原型 产品 的 开发 。 很 感谢 
地 说 ，FPGA 厂商 对 于 这 些 中 小 企业 来 说 还 是 比较 贴心 的 。 

。 可 用 性 对 于 电子 系统 而 言 意味 着 系统 可 以 正确 地 工作 ， 并 且 可 以 在 你 需要 它 时 仍旧 在 工 
作 。 好 的 设计 是 确保 后 者 ， 即 可 靠 性 ,但 有 时 候 为 了 确保 一 个 CPU 可 以 正常 工作 并 且 稳 
定 地 工作 ， 我 们 必须 对 该 CPU 进行 复制 ， 也 就 是 进行 元 余 设 计 。 换 句 话说 ， 就 是 两 个 
CPU 肯定 比 一 个 CPU 好 ， 三 个 CPU 也 肯定 比 两 个 的 更 好 ， 等 等 。 一 个 软 核 处 理 器 可 以 尽 
可 能 多 次 数 地 进行 复制 和 并 行 化 ， 只 不 过 是 消耗 更 多 的 FPGA 资源 和 功 耗 而 已 。 相 比较 
而 言 ， 复 制 一 个 专用 处 理 器 意味 着 翻 倍 集成 电路 芯片 ， 使 成 本 成 倍增 加 。 

8. 1.2.3 效率 
效率 可 以 从 功 耗 、 成 本 、 空 间 等 几 个 方面 来 衡量 。 现 在 存在 一 些 观 点 ， 全 部 都 是 基于 以 下 几 
个 基本 原因 : 

。 在 8.1.1 节 中 列 出 的 S3C2410 的 特征 列表 令 人 印象 深刻 ， 并 且 对 于 任何 一 个 设计 者 来 说 
要 想 在 定制 的 软 核 处 理 器 中 复制 出 这 些 处 理 器 特性 都 是 很 难 的 事情 。 然 而 ， 所 有 这 些 特 
征 都 是 必需 的 吗 ? 当 设 计 一 个 全 功能 SoC 解决 方案 时 这 个 答案 是 肯定 的 。 不 过 ， 在 特定 
情况 下 ， 只 需要 有 一 小 部 分 特征 就 足够 了 ， 所 以 在 这 里 答案 也 许可 以 是 “不 ”"。 软 核 仅 包 
含 这 一 小 部 分 特征 就 可 以 了 ， 因 此 接口 及 外 设 是 绝对 需要 的 。 它 们 不 会 浪费 硅 资源 (或 者 
FPGA 资源 ) 在 一 些 用 不 到 的 功能 上 ， 从 这 一 点 来 讲 ， 有 时 软件 比 标准 CPU 更 高 效 。 

。 黏合 (glue) 逻辑 是 将 微 处 理 器 与 其 他 设备 绑 定 在 一 起 而 得 名 的 。 例 如 将 反 向 器 和 与 门 
黏合 在 一 起 。 有 时 候 ， 一 个 较 大 规模 的 黏合 逻辑 可 以 通过 使 用 小 规模 的 FPGA 来 完成 。 
假设 黏合 逻辑 是 一 种 普遍 存在 的 设计 方式 ,那么 它 将 会 被 应 用 到 各 个 地 方 ， 用 软 核 黏合 
上 其 他 逻辑 的 FPGA 来 取代 传统 的 微 处 理 器 。 有 时 候 ， 对 比 专用 CPU， 这 样 的 设计 结果 
可 以 减 小 PCB 板 上 的 空间 ， 降 低 生 产 成 本 等 。 

8. 1.2.4 人 为 因素 

人 为 因素 往往 都 被 工程 师 们 所 忽略 ， 然 而 ， 像 任何 技术 因素 一 样 ， 人 为 因素 也 同等 重要 。 只 
有 目睹 过 工程 师 们 在 小 组 设计 会 议 中 由 于 灵感 枯竭 而 导致 的 诅 形 和 不 理智 ， 才 会 对 人 为 因素 的 
重要 性 有 所 认识 。 在 软 核 设计 中 的 人 为 因素 主要 有 以 下 几 方 面 的 考虑 : 

。 开发 自己 的 计算 机 才 是 真正 的 乐趣 。 动 力 充 足 的 设计 工程 师 有 着 极 高 的 效率 和 刻苦 的 工 
作 态 度 。 做 一 件 事情 的 动机 通常 来 自 兴 趣 ， 设计 一 个 定制 的 软 核 往往 是 工程 师 们 最 感 兴 
趣 的 一 件 事情 ， 而 这 一 点 大 部 分 管理 人 员 却 意识 不 到 。 

。 当 工 程 师 可 以 完全 自主 设计 一 个 软 核 时 ， 他 往往 也 承担 了 上 面 所 说 的 灵感 枯竭 的 风险 ， 
而 这 对 于 工程 师 来 讲 恰恰 是 另外 一 个 很 大 的 动力 ， 这 样 的 风险 可 以 帮助 他 们 追逐 设计 上 
的 完美 。 你 可 以 很 轻松 地 设计 并 且 拥 有 你 自己 的 软 核 。 

。 当 开 始 着 手 一 个 新 的 租 入 式 设 计 项 目 时 ， 往 往 都 有 一 定 的 时 间 去 考虑 应 该 采用 哪个 幅 入 
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式 处 理 器 才能 适合 该 项 目 。 这 个 适合 度 将 决定 设计 所 需要 的 各 种 设备 ， 以 及 这 些 设 备 的 
最 佳 选择 。 不 过 ， 让 工程 师 制定 一 个 学 习 计划 来 学 习 一 个 新 的 微 处 理 器 这 件 事情 却 有 点 
从 考虑 。 有 时 候 ， 不 得 不 让 工程 师 去 熟悉 处 理 器 的 新 特性 及 工作 方式 ， 这 样 ， 对 一 个 全 
新 设备 的 掌握 过 程 往 往 会 导致 项 目 数 月 的 拖延 ， 或 者 会 因为 初学 者 不 可 避免 的 错误 从 而 
延长 设计 周期 。 使 用 一 个 团队 都 熟悉 的 处 理 器 往往 更 好 ， 尽 管 这 个 处 理 器 可 能 不 是 适合 
度 最 高 的 。 此 时 使 用 软 核 会 解决 此 类 问题 ， 因 为 一 个 团队 如 果 熟 悉 一 种 软 核 ， 那 么 该 软 
核 将 会 被 连续 使 用 在 很 多 设计 中 。 通 过 FPGA 实现 时 ， 对 外 设 、 功 能 单元 及 协 处 理 器 的 
轻微 改动 可 以 确保 软 核 在 新 项 目 中 是 较 优 的 选择 ， 并 且 可 以 避免 让 开发 团队 纠缠 在 新 的 
处 理 器 培训 中 。 


8.2 ” 软 硬件 协同 设计 

软 硬 件 协 同 设计 是 对 一 个 包含 硬件 和 软件 的 系统 进行 设计 时 的 特定 术语 ， 这 个 概念 与 敌人 
式 系统 尤其 相关 ， 因 为 甬 人 式 系 统一 般 都 包含 定制 化 的 硬件 和 定制 化 的 软件 。 

当 为 台式 PC 编写 软件 程序 时 ， 程 序 员 们 通常 假设 硬件 无 误差 并 且 功 能 上 是 正确 的 。 当 设计 
一 个 新 的 PC 时 ,设计 者 们 会 使 用 标准 测试 软件 来 测试 该 PC， 而 这 些 测 试 软件 已 经 被 证 明正 确 无 
误 并 且 在 可 工作 的 硬件 上 能 够 正确 运行 (比如 在 上 一 代 的 PC 上 )。 

在 嵌入 式 系统 中 ， 潜 在 的 问题 是 硬件 和 软件 一 般 都 是 一 起 开发 ， 这 样 一 来 ， 硬 件 无 法 证 明 软 件 
是 正确 无 误 的 ， 反 过 来 也 是 一 样 。 因 而 ， 调 试 及 开发 系统 的 过 程 会 陷 人 这 样 一 个 矛盾 的 问题 中 。 

如 图 8-1 所 示 ， 假 设 一 个 系统 包含 一 个 FPGA 和 一 个 CPU。 一 个 嵌 人 式 系统 设计 者 ， 已 知 该 
系统 的 需求 ， 需 要 决定 如 何 实现 这 些 需 求 。 有 些 需 求 可 以 用 软件 来 实现 ， 有 的 用 硬件 来 实现 ， 而 
有 许多 是 这 两 者 的 结合 。 一 般 来 讲 ， 软 件 实现 更 加 灵活 ， 容 易 调 试 、 更 改 和 增加 新 特性 ， 而 硬件 
实现 能 达到 更 高 的 性 能 和 尽 可 能 低 的 功 耗 。 
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图 8-1 对 于 一 个 包含 CPU 和 FPGA 的 嵌入 式 系 统 来 讲 ， 其 设计 过 程 需要 明确 这 两 个 处 理 器 单元 
将 要 承担 哪些 计算 任务 ， 前 提 是 假设 存在 一 个 可 以 工作 的 CPU- FPGA 接口 





名 ”在 硬件 设计 者 中 有 - -个 传统 : 当 哪个 设备 工作 不 正常 时 便 抱 她 程序 员 ， 而 在 程序 员 中 也 有 “个 传统 : 当代 码 前 
溃 时 就 抱 怒 硬件 . 在 管理 人 员 的 眼中 ， 这 种 开发 处 境 闫 然 有 趣 ， 却 不 那么 商 效 。 
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有 一 些 任务 很 自然 地 适合 用 FPGA 来 处 理 ， 比 如 位 级 操作 、 串 口 处 理 或 者 并 行 处 理 。 有 些 任 


B74| 务 适 合用 高 级 编程 语言 在 CPU 上 以 软件 实现 ， 比 如 控制 软件 、 高 级 协议 、 文 本 处 理 等。 熟悉 FP- 


GA 的 规模 和 MIPS (每 秒 百 万 条 指令 ) /存储 的 限制 ， 有 助 于 设计 者 对 处 理 任务 的 分 配 。 还 有 很 
多 问题 值得 考虑 ， 而 这 些 问 题 通 常 都 需要 作出 折 中 处 理 ， 比 如 :“ 谁 来 编码 ?” “如何 维护 这 些 代 
码 ?” 和 “系统 在 随后 需要 升级 吗 ?” 

在 FGPA 和 CPU 连接 的 过 程 中 有 一 个 特别 的 问题 需要 注意 。 这 个 连接 将 会 有 共同 的 带宽 和 
延迟 限制 : 它 只 支持 一 定数 量 的 数据 流 并 将 自然 地 引入 消息 传递 过 程 中 的 小 延迟 (这 个 延迟 对 
于 实时 系统 很 重要 ) 。 当 然 ， 通常 一 个 设备 (通常 是 CPU) 作为 主 设备 ， 另 外 的 设备 作为 从 设 
备 。 消 息 和 数据 的 初始 化 来 自主 设备 ， 所 以 延迟 可 能 会 根据 消息 的 不 同 来 源 而 产生 变化 ， 带 宽 
会 因此 不 一 样 。 最 有 可 能 的 是 ， 这 两 个 设备 不 会 时 钟 同 步 ， 所 以 任何 在 这 两 个 设备 之 间 传 送 的 数 
据 必 须 缓冲 ， 且 两 边 都 需要 进行 缓冲 ， 这 也 增加 了 数据 传输 延迟 。 

如 果 FPGA 里 包含 一 个 软 核 ， 上 面 这 种 情况 会 更 糟糕 。 这 意味 着 将 要 做 一 个 更 加 艰难 的 决 
定 ， 任 务 是 运行 在 CPU 上 ， 在 包含 逻辑 功能 /状态 机 的 FFGA 上 ， 还 是 在 FPGA 的 软 核 上 。 

尽管 困难 重重 ， 一 个 分 配 好 的 设计 将 最 终 确 定 下 来 ， 如 图 8-2 所 示 。 包 含 接口 规格 在 内 的 各 
种 详细 设计 将 被 一 一 列 出 并 分 发 到 软件 组 和 硬件 组 ， 然 后 他 们 着 手 按照 要 求 开 始 各 自 的 实现 
工作 。 


合唱 





图 8-2 在 拱 和 人 式 系 统 设 计 的 软 硬 件 划分 步骤 中 ， 将 任务 分 配给 一 个 CPU 或 FPCA 的 示例 图 


一 段 时 间 后 ， 整 合 工作 开始 ， 将 软件 设计 和 硬件 设计 连接 在 一 起 ， 结 果 往 往 会 发 现 系统 无 法 
正常 工作 。 这 个 时 候 ， 两 支 团队 在 让 他 们 各 自 的 工作 能 够 相互 配合 之 前 ， 先 要 承担 属于 自己 的 
责任 。 

不 幸 的 是 ， 即 便 是 系统 最 终 能 够 工作 ， 也 很 少 有 最 理想 的 办 法 来 解决 这 种 整合 时 出 现 的 问 
题 。 究 其 原因 ， 是 由 于 在 设计 的 最 初 划分 过 程 中 有 着 过 多 的 人 为 主观 因素 ， 并 将 这 些 因 素 延续 到 
后 面 的 实现 工作 中 。 

近 些 年 来 ， 软 硬件 协同 设计 的 出 现 正 是 为 了 应 对 设计 同时 包含 软件 和 硬件 的 系统 时 所 存在 
的 困难 。 协 同 设计 方法 学 一 般 都 通过 计算 机 辅助 设计 工具 来 实现 ， 其 目的 是 简化 设计 过 程 ( 缩 
短 设计 周期 ， 降 低 设 计 成 本 ,减少 设计 错误 ) ， 优 化 软 硬 件 的 划分 ， 使 整合 过 程 更 容易 。 

软 硬 件 协同 设计 涉及 以 下 步骤 ， 我 们 假设 以 一 个 混合 的 FPGA/CPU 系统 为 目标 : 

1. 建 模 。 在 这 里 ， 一 些 系 统 的 具体 设计 必须 用 机 器 可 读 的 格式 表现 出 来 。 这 种 表达 必须 是 
一 种 形式 化 的 设计 语言 或 者 一 种 简单 的 编程 语言 ， 比 如 C 或 者 MATLAB， 来 评估 系统 在 给 定 输 入 
数据 后 的 输出 。 这 个 模型 会 在 随后 用 来 验证 系统 的 功能 正确 性 。 

2. 分 配 。 正 如 前 面 所 提 到 的 ， 也 许 人 工 才 能 根据 系统 描述 信息 做 出 最 好 的 分 配 ， 而 不 能 单 
纯 依 靠 机 器 。 有 时 候 ， 可 以 很 容易 地 把 系统 划分 为 几 个 不 同 模块 ， 但 是 往往 存在 一 些 困难 并 且 有 
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可 能 需要 对 原始 模型 进行 轻微 的 改动 。 

3. 协同 综合 。 使 用 CAD 工具 可 以 构建 出 一 个 由 以 下 三 项 组 成 的 模型 ，FPGA 代码 ，C 语言 
代码 以 及 这 两 者 之 间 的 接口 。FPGA 代码 用 FPGA 设计 工具 进行 综合 ，C 代码 用 编译 器 编译 并 装 
载 进 处 理 器 模拟 器 中 ， 而 这 两 者 的 接口 往往 是 以 前 面 这 些 生成 文件 为 基础 的 。 

4. 协同 仿真 。 这 意味 着 将 在 设计 工具 中 一 起 运行 第 3 步 所 述 的 三 项 。 理 想 情 况 下 ， 这 些 都 
是 实时 地 运行 ， 但 是 往往 比 真实 的 硬件 速度 要 慢 上 千 倍 ， 然 而 对 于 硬件 实现 来 讲 要 求 是 位 级 
精确 。 

5. 验证 。 这 意味 着 将 第 4 步 中 的 结果 与 原始 模型 的 结果 进行 对 比 测试 。 

在 这 个 过 程 中 将 会 有 一 些 重复 : 当 发 现 错误 时 (其 实 也 可 以 认为 是 出 现 了 更 进一步 优化 的 
机 会 ) ， 对 分 配 和 设计 的 轻微 改动 是 有 可 能 的 。 图 8-3 清晰 地 显示 了 这 些 重复 的 步 又， 在 系统 设 
计 的 每 个 步骤 中 都 需要 进行 验证 ， 从 而 可 以 看 出 系统 模型 的 重要 性 。 
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图 8-3 ” 软 硬 件 内 周 设 计 过 程 示 意图 ， 给 出 了 开发 流程 ， 同 时 在 每 个 步骤 中 都 有 验证 过 程 ， 
如 果 检 测 出 错误 则 会 返回 之 前 的 步骤 并 重复 执行 
重要 的 事实 是 需要 一 起 仿真 : 硬件 〈 通 常 是 FPCA) 、 软 件 以 及 它们 之 间 的 接口 可 以 用 设计 
工具 来 开发 ， 并 且 在 仿真 中 进行 测试 ， 这 样 问题 可 以 尽早 发 现 和 反映 出 来 。 当 系统 最 终 可 以 和 模 
型 保持 一 致 时 ， 就 可 以 将 它 移 植 到 硬件 上 进行 集成 和 测试 。 正 如 大 家 所 希望 的 ， 这 时 软件 和 硬件 
可 以 完美 结合 ， 程 序 员 和 硬件 开发 人 员 可 以 一 起 庆祝 了 。 


8. 3 现成 的 软 核 
在 本 章 前 面 ， 我 们 已 经 看 到 目前 有 很 多 可 免费 获得 的 处 理 器 核能 够 综合 到 FPGA 中 。 在 下 面 
一 节 中 ,我们 将 讨论 如 何 建立 我 们 自己 的 定制 核 。 我 们 也 可 能 使 用 来 自 几 个 厂家 的 商用 核 ， 而 不 
仅 限 于 主流 FPGA 厂商 ， 为 此 ， 让 我 们 花 一 些 时 间 来 考虑 在 写作 本 书 时 市 面 上 的 软 核 : 
e Altera Nios II 是 一 个 为 Altera FPGA 优化 过 的 32 位 RISC 处 理 嚣 ， 基 于 原始 的 Nios 核 。 很 
多 人 认为 ， 这 款 软 核 是 针对 广 为 应 用 的 ARM 处 理 器 而 推出 的 。 该 软 核 执 行 单一 指令 集 ， 
并 且 可 以 在 绝 大 多 数 规模 的 FPGA 上 应 用 (700 个 逻辑 单元 以 上 )。 最 大 、 最 快 的 配置 是 
一 条 六 级 流水 线 ， 独 立 的 数据 cache 和 指令 cache， 专 用 的 乘法 器 ， 分 支 预测 单元 ， 甚 至 
还 有 可 选 的 除法 器 及 MMU， 性 能 非常 强大 。 从 一 个 角 入 式 系统 体系 结构 设计 师 的 角度 来 
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看 ， 其 最 有 价值 的 地 方 是 该 核 支 持 256 条 定制 指令 来 访问 以 定制 逻辑 编写 的 专用 模块 ， 
并 且 可 以 支持 拥有 流水 线 的 专用 硬件 加 速 器 。 该 软 核 支持 一 系列 的 操作 系统 ， 包 括 幅 人 
式 的 Linux。 
。 Xilinx MicroBlaze 也 是 一 个 32 位 的 RISC 处 理 器 ， 是 针对 Xilinx 的 设备 而 开发 。 它 有 一 个 
可 选 的 三 级 或 者 五 级 流水 线 ， 并 且 有 很 多 根据 总 线 、 功 能 单元 以 及 MMU 等 来 进行 配置 
的 选项 。 该 软 核 为 哈佛 体系 结构 (指令 存储 和 数据 存储 相互 独立 ) ， 可 以 对 cache 大 小 进 
行 配置 。 拥 有 硬件 除法 器 、 快 速 乘法 器 和 与 IEEE754 标准 兼容 的 FPU。 如 Nios 一 样 ， 该 
软 核 也 支持 一 些 操 作 系 统 ， 包 括 嵌 入 式 的 Linux。 
Actel 是 较 晚 加 入 软 核 家 族 的 ， 起初 也 没有 针对 上 面 两 家 大 型 厂商 推出 产品 ， 但 后 来 和 
ARM 签订 了 一 项 非常 乞 动 的 协议 ，ARM 公司 授权 该 公司 销售 基于 ARM7 的 软 核 。 该 核 
的 应 用 范围 非常 广泛 ， 并 且 代 码 可 以 运行 在 ARM7 上 。 然 而 ， 相 比 Altera 和 Xilinx，Actel 
是 一 个 非常 小 的 供应 商 ， 并 且 它 瞄准 的 是 不 同 领域 的 FPGA 市 场 。 在 现成 的 微 处 理 器 市 
场 上 ，ARM 公司 的 成 功 是 显而易见 的 ， 只 有 时 间 可 以 告诉 我 们 这 样 的 成 功能 否 在 FPGA 
软 核 市 场 上 延续 。 
e 作为 最 后 的 竞争 者 ，Lattice 也 发 布 了 自己 的 32 位 软 核 RISC 处 理 器 LatticeMico32 ， 该 
软 核 处 理 器 在 一 款 Lattice 的 FPGA 中 使 用 了 不 到 2000 个 查找 表 (LUT) ， 尽 管 在 可 配置 
性 上 它 没有 Xilinx 和 Altera 完整 ， 其 性 能 也 不 如 这 两 家 公司 的 产品 ， 但 是 LatticeMico32 
速度 更 快 、 占 用 的 资源 也 更 少 。 该 软 核 支持 各 种 外 设 (如 UART) 和 总 线 接口 并 且 可 配 
置 。 而 且 ， 它 是 完全 开放 的 ， 这 意味 着 可 以 在 任何 地 方 使 用 和 更 改 该 软 核 。 使 用 和 重新 
设计 后 出 售 该 软 核 不 需要 任何 许可 。 

除了 以 上 这 些 处 理 器 ， 还 有 些 公司 也 专注 于 卫 核 市 场 ， 出 售 可 以 用 于 任何 FPGA 的 核 。 甚 
至 ARM 公司 自身 也 发 布 了 一 款 很 小 的 软 核 RAM Cortex。 很 显然 ， 这 是 一 个 很 活跃 的 领域 ， 对 于 
舱 入 式 系 统 市 场 愈 来 愈 重要 。 

最 后 一 点 值得 注意 : 这 些 核 并 不 是 孤立 存在 的 。 为 了 可 以 使 其 完全 发 挥 作用 ， 我 们 可 以 看 见 
这 些 核 还 需要 在 一 块 FPGA 上 进行 综合 ， 需 要 外 部 总 线 、 外 设 〈 比 如 存储 器 ) 、 时 钟 信 号 及 其 他 
设施 。 此 外 ， 它 们 还 需 程序 。 

为 软 核 处 理 器 开发 软件 程序 是 一 个 必 不 可 缺 的 部 分 ， 这 样 才 可 以 确保 设计 出 来 的 软 核能 正 
确 工作 。 因 此 ， 有 很 重要 的 事情 需要 确定 ， 比 如 是 否 有 现成 的 工具 链 《〈 用 来 开发 软件 ) ， 是 和 否 有 
该 软 核 可 用 的 现成 操作 系统 ， 是 否 有 调试 工具 可 用 。 

一 个 标准 的 嵌入 式 工具 链 (toolchain) ， 比 如 GNU 工具 链 ， 包括 以 下 几 个 要 素 : C(C ++) 
编译 器 、 汇 编 器 和 连接 器 。 同 时 ， 也 应 该 有 一 个 库 管 理工 具 、 目 标 文 件 工具 、 和 剥离 器 (用 来 
从 目标 文件 中 移 除 调试 注释 以 减少 文件 大 小 ) 和 分 析 工 具 等 。 作 者 非常 推崇 的 调试 器 是 CDB， 
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它 可 以 单 步 执行 ,设置 断 点 、 观 察 点 和 运行 监控 代码 。GNU 工具 链 其 至 还 包含 了 收集 运行 
代码 信息 的 软件 ， 比 如 确定 消耗 在 各 个 功能 上 的 CPU 时 间 、 程 序 轨 迹 、 所 执行 的 循环 次 
数 等 。 

一 个 操作 系统 ， 特 别 是 实时 操作 系统 (RTOS) ， 通 常 都 会 出 现在 开发 项 目的 需求 中 。 不 幸 
的 是 ， 我 们 很 难 编写 或 移植 一 个 操作 系统 到 新 的 处 理 器 上 ， 这 也 许 就 是 很 多 人 在 选择 处 理 器 时 
赞成 那些 支持 成 熟 操 作 系 统 〈 比如 税 入 式 Linux) 的 处 理 器 的 原因 。 尽 管 如 此 ， 我 们 也 有 很 多 理 
由 选择 软 核 ， 例 如 ， 只 需要 很 小 规模 的 代码 的 时 候 ， 比 如 手工 编写 的 汇编 程序 。 

事实 上 ， 在 下 面 几 节 中 ,我 们 将 构建 一 个 定制 的 软 核 ， 并 在 随后 为 该 软 核 开 发 一 个 汇编 器 
(我 们 也 要 介绍 一 个 基于 类 C 的 编译 器 ) 。 
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8.4 制作 自己 的 软 核 

在 本 节 及 接 下 来 的 内 容 中 ， 我 们 将 通过 设计 一 个 简单 的 软 核 ， 把 所 学 的 知识 整合 在 一 个 点 
上 。 我 们 将 使 用 一 个 用 Verilog 编写 的 软 核 ， 该 软 核 可 以 在 FPGA 上 应 用 。 我 们 所 使 用 的 CPU 叫 
做 TinyCPU ， 是 由 日 本 广岛 大 学 工程 学 院 信息 工程 系 的 Koji Nakano° 教授 发 明 的 。TinyCPU 的 
Verilog 源 代码 仅 有 420 行 。 

尽管 设计 该 软 核 的 目的 是 为 了 教学 以 及 演示 最 基本 的 计算 机 体系 结构 特征 ， 但 是 TinyCPU 是 
一 个 拥有 完整 功能 的 CPU。 由 于 该 软 核 用 Verilog 编写 ， 因 而 它 可 以 运用 在 绝 大 部 分 的 FPGA 上 ， 
比如 来 自 Altera 、Xilinx 和 Actel 的 FFGA， 并且 可 以 执行 实际 的 程序 任务 。Koji Nakano 教授 和 他 
的 团队 同时 也 为 该 软 核发 布 了 一 个 简单 汇编 器 和 一 个 支持 C 语言 的 编译 器 。 

对 于 正在 寻找 在 其 FPGA 上 可 应 用 的 软 核 处 理 器 的 读者 来 说 ，TinyCPU 也 许 会 是 一 个 非常 不 
错 的 选择 。 但 是 ， 对 于 这 些 读者 来 说 更 重要 的 是 要 首先 理解 TinyCPU 并 且 对 其 做 一 些 实验 : 为 什 
么 不 扩展 TinyCPU 或 者 运用 自己 所 学 的 知识 重新 设计 或 者 选择 一 个 定制 的 处 理 器 核 ， 而 是 将 Ti- 
nyCPU 直接 应 用 于 项 目 中 呢 ? TinyCPU 也 许 不 是 最 有 效率 的 ， 或 者 对 于 特定 应 用 来 说 也 许 不 是 最 
适合 的 ， 但 是 运用 本 章 所 讲述 的 CPU 设计 知识 并 结合 前 面 几 章 中 的 基础 知识 ， 读 者 已 经 具备 了 
一 些 基本 技巧 以 创建 定制 化 软 核 处 理 器 方案 ， 或 者 从 现 有 方案 中 选择 合适 的 软 核 。 

值得 注意 的 是 ， 对 一 些 设计 来 说 选择 一 个 较为 通用 的 处 理 器 核 效 果 会 更 好 ， 即 便 该 核 明显 





属于 次 优选 择 。 这 样 做 可 能 有 几 方 面 的 好 处 : 代码 / 库 的 复 用 ， 共 享 的 开发 工具 ， 共 享 的 开发 技 











巧 和 知识 。 将 一 个 处 理 器 的 开发 经 验 应 用 于 另外 一 个 全 新 的 处 理 器 ， 会 因 较 长 的 学 习 时 间 而 延 
长 开发 周期 ， 这 也 是 为 什么 大 家 坚持 选择 一 个 成 熟 的 、 标 准 的 处 理 器 而 不 是 去 设计 一 个 定制 化 
处 理 器 核 的 原因 。 

对 功 耗 /空间 效率 或 者 性 能 这 两 个 参数 标准 有 严格 要 求 的 人 来 说 ， 一 个 全 定制 的 处 理 器 核 也 
许 是 最 佳 选择 。 

本 章 会 一 步 步 地 讲述 对 TinyCPU 的 完整 CPU 设计 。 如 果 读 者 对 硬件 描述 语言 ( HDL) 不 熟 
悉 的 话 也 没有 关系 ， 所 有 的 设计 特征 都 会 以 节 的 形式 分 块 盖 述 。 事 实 上 ， 在 学 习 这 些 CPU 设计 
知识 时 ， 也 是 一 个 轻松 构建 Verilog 基本 知识 体系 的 过 程 。 


8.5 CPU 设计 规格 说 明 

本 章 中 所 设计 的 CPU 显然 是 一 个 教学 工具 。 然 而 ， 它 也 必须 是 一 个 拥有 全 部 功能 的 系统 。 
让 我 们 先 定 义 一 些 TinyCPE 的 关键 特征 : 

。 一 个 全 功能 的 CPU， 可 以 在 FPGA 上 综合 。 

。 在 保证 操作 正确 性 的 前 提 下 应 尽量 简单 。 

。 所 需 的 Verilog 源 代码 数量 应 该 最 小 。。 

。 可 以 用 汇编 语言 进行 编程 (最 好 用 C 编程 语言 ) 。 

。 有 一 个 简单 但 是 功能 完整 的 指令 集 。 

es。 有 一 个 至 少 16 位 的 体系 结构 。 





日 。、 承 和 丝 Nakano 教授 好 意 ， 人 允许 我 们 在 这 里 使 用 TingCPU 的 源 代 码 和 设计 。 关 于 TingCPU 的 更 多 信息 ， 请 见 他 的 
HDL 维基 网 页 http:Awww. cs. hiroshima- u ac, jp/ ~ nakano/wiki/ 。 
也 可 以 参见 在 《Design Wave Magazine》 (2007 ~ 2009) 中 刊登 的 KNakano 和 Y.lto 的 连载 文章 “VernlogHDL & 
FPGA design learned from basics” 。 

目 尽管 本 作者 本 身 是 VHDL 的 长 期 用 户 和 拥护 者 ， 但 似乎 许多 教师 现在 认识 到 Verilog 更 容易 和 掌握， 而且 对 于 初 
学 者 足 种 更 “友好 ”的 语言 . 
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。 支持 输入 /输出 。 

。 支持 一 般 的 条 件 语 句 操作 (比如 NE，GZ，EQ 等 )。 

。 采用 简洁 的 堆栈 体系 结构 ( 见 3.3.5 节 )。 

根据 上 面 所 罗列 的 特征 ， 现 在 我 们 可 以 从 逻辑 上 定义 并 描述 CPU 结构 和 操作 。 当 然 ， 在 任 
何 工程 问题 中 都 有 一 些 不 同 的 解决 方案 ， 在 这 里 我 们 以 TinyCPU 的 设计 为 例 来 讲述 。 

本 章 的 其 他 部 分 将 按 顺 序 介绍 TinyCPU 设计 。 我 们 首先 考虑 CPU 的 体系 结构 ， 在 提出 Veril- 
og 设计 之 前 讨论 指令 的 处 理 和 控制 。 读 到 这 里 ， 读 者 往往 更 倾向 于 跳 到 8.7 节 来 查看 和 测试 我 
们 的 设计 ， 然 后 再 回 过 头 来 阅读 8. 5. 1 节 到 8. 6. 1 节 关 于 分 析 设 计 选 择 的 内 容 。 


8. 5.1 CPU 体系 结构 


回顾 第 3 章 ， 在 3. 2 节 中 我 们 可 以 看 到 一 个 计算 机 或 者 CPU 只 不 过 是 一 种 设备 ， 这 种 设备 
可 以 转换 信息 (数据 ) ， 并 根据 这 些 数据 执行 逻辑 操作 ， 这 些 操 作 均 是 根据 一 系列 的 指令 来 进 
行 的 。 

如 果 我 们 设计 一 个 CPU， 那 么 至 少 需 要 四 个 元 素 : 第 一 , 一些 信息 传输 的 方法 ; 第 二 , 一 些 
存储 数据 和 程序 的 方法 ; 第 三 ， 一 些 执行 逻辑 操作 的 方法 ; 第 四 ， 让 这 一 系列 指令 能 够 具体 化 为 
操作 和 传输 的 方法 。 让 我 们 先 了 解 一 下 这 些 元 素 ， 然 后 从 8. 6. 1 节 开 始 学 习 具 体 的 Verilog 代码 


结 爸 。 
8. 5.2 总 线 


这 是 我 们 的 CPU 设计 实例 中 所 要 求 的 第 一 条 ， 数 据 传 输 的 方法 ， 也 叫做 总 线 。 在 第 4 章 中 
我 们 曾 对 总 线 的 结构 做 了 全 面 的 探讨 ， 这 些 探 讨 同时 也 包括 了 总 线 结构 对 指令 集 设 计 和 效率 的 
潜在 影响 。 在 这 里 ， 我 们 以 最 简单 的 总 线 安排 为 起 始点 ， 我 们 称 之 为 单 总 线 体系 结构 〈 详 见 
4.1.6 节 )。 

TinyCPU 因此 有 一 个 单数 据 总 线 。 在 这 里 ， 总 线 的 宽度 不 显得 特别 重要 ， 但 显然 一 切 和 数据 
处 理 相关 的 部 分 都 将 连接 到 这 条 公共 总 线 上 。TinyCPU 的 总 线 结构 如 图 8-4 所 示 ， 而 且 这 条 总 线 
会 在 我 们 的 设计 过 程 中 随 着 额外 的 功能 单元 和 连接 的 增加 而 扩充 。 








d 输出 
obuf0 


in Yo 











图 8-4 TinyCPU 内 部 单 总 线 结构 框图 ， 显 示 了 它 的 数据 总 线 dbus 、 一 个 输入 
端口 、 输 出 缓冲 和 端口 。 在 这 里 省 略 了 控制 逻辑 
在 TinyCPU 中 ， 主 要 的 数据 总 线 被 命名 为 dbus， 并 且 为 16 位 宽 以 匹配 设计 要 求 。 总 线 的 宽 
度 影响 着 为 实现 设计 所 要 求 的 CPU 资源 ， 并 且 如 果 要 求 提 供 一 个 立即 数 载 人 操作 ， 则 对 指令 集 
会 有 一 个 随 之 而 来 的 影响 ， 但 是 除了 这 些 以 外 ， 目 前 这 个 阶段 这 个 问题 相对 来 说 不 是 很 重要 。 
我 们 也 提 到 了 这 个 设备 的 输入 /输出 。 很 显然 ， 输 入 和 输出 数据 字 需 要 在 dbus 上 传输 。 这 个 
结构 如 图 8-4 所 示 ， 另 外 一 些 总 线 仲裁 的 解释 应 该 事先 给 出 。 
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因为 输入 in 是 由 外 部 驱动 进入 总 线 ， 所 以 总 线 上 的 电压 信号 可 以 随时 进入 CPU。 这 明显 会 
扰乱 CPU 的 正常 操作 ， 所 以 有 必要 在 输入 和 dbus 之 间 设 置 不 同类 型 的 关口 来 避免 此 类 问题 。 这 
个 问题 可 以 用 缓冲 单元 来 解决 ， 设 计 一 条 具体 的 CPU 指令 ， 这 样 程序 员 可 以 从 输入 线 上 读 取 逻 
辑 值 。 这 条 指令 将 打开 连接 输入 线 和 dbus 之 间 的 缓冲 单元 。 这 样 输入 信号 将 进入 总 线 ， 在 这 里 
一 些 其 他 逻辑 将 这 些 信 号 存 人 某 个 地 方 ， 具 体 逻 辑 未 在 图 中 给 出 。 

类 似 地 ， 一 个 具体 的 CPU 指令 将 数据 总 线 上 的 内 容 输出 到 输出 线 上 。 这 条 指令 仅 在 非常 短 
暂 的 时 间 内 有 效 ， 它 激活 输出 缓冲 (obuf0)， 让 其 从 dbus 上 读 取 逻辑 值 ， 待 数据 读 取 完 毕 立 即 
关闭 输出 缓冲 。 

显然 ， 尽管 我 们 目前 定义 了 输入 、 输 出 和 数据 传输 的 主要 设计 ,但 依然 还 有 大 量 的 CPU 设 
计 没 有 讲述 。 

8. 5.3 程序 及 数据 存储 


对 于 用 来 控制 最 终 CPU 行为 的 一 系列 指令 来 讲 ， 一 些 形式 的 程序 存储 器 是 必需 的 。 正 因为 
这 样 ， 和 几乎 所 有 的 计算 机 一 样 ， 我 们 假设 这 里 程序 采用 的 是 二 进 制 机 器 代码 指令 。 同 样 ， 与 目 
前 大 多 数 处 理 器 特别 是 RISC 处 理 器 一 样 ， 为 简便 起 见 ， 我 们 将 采用 固定 指令 长 度 设 计 。 由 于 该 
特性 ， 所 有 的 指令 可 以 直接 写 在 Verilog 源 代 码 中 。 

在 一 个 真实 的 FPGA 实现 中 ,设计 者 更 倾向 于 使 用 外 部 存储 器 (如 SRAM、SDRAM 、 闪 存 之 
类 )。 在 那样 的 情况 下 ，TinyCPU 的 程序 将 存储 于 外 部 存储 器 中 ， 并且 通 过 一 条 与 FPGA 相连 的 
总 线 进 行 传输 。 如 果 程 序 代码 的 规模 超过 了 FPGA 中 较 小 的 专用 程序 存储 空间 ， 那 么 这 种 方法 是 
有 必要 的 。 在 写作 本 书 的 时 候 ，FPGA 可 支持 的 最 大 程序 存储 空间 大 约 为 1MB。 然 而 在 我 们 这 个 
实例 和 许多 其 他 小 型 嵌入 式 系统 中 ， 存 储 需 求 很 少 有 超过 32KB 的 ， 一 个 专用 的 模块 完全 可 以 满 
足 我 们 对 程序 存储 和 数据 存储 的 需求 ， 这 个 专用 模块 我 们 称 之 为 RAM0。 

像 外 部 专用 存储 设备 一 样 ，RAM0 也 是 可 寻 址 存储 器 ， 因 此 除 dbus 外 它 还 需要 增加 一 个 地 
址 总 线 〈abus) ， 并 且 要 加 上 读 写 控制 信号 。 对 于 程序 存储 器 为 什么 是 可 写 的 ， 没 有 一 个 具体 的 
理由 ， 但 确实 需要 为 变量 读 写 存 储 器 。 在 这 里 ， 我 们 将 使 用 冯 “ 诺 依 曼 方 法 〈 见 2.1.2 节 )， 即 
程序 代码 和 数据 存储 于 相同 的 存储 器 。 

还 有 另外 一 个 数据 存储 元 素 没有 提 及 ， 那 就 是 堆栈 。 我 们 在 3. 3.5 节 中 简要 描述 了 堆栈 机 器 ， 它 
用 来 在 程序 执行 中 临时 存放 变量 。 事 实 上 ， 这 个 例子 就 表明 了 一 个 堆栈 和 一 个 ALU 之 间 的 联系 。 

将 数据 加 载 进 一 个 堆栈 需要 将 堆栈 的 输入 与 dbus 相连 。 一 个 堆栈 需要 两 个 输出 来 供应 逻辑 
操作 〈 因 为 这 些 操作 通常 都 有 两 个 参数 ) ， 而 这 两 个 输出 分 别 是 堆栈 项 的 两 个 数据 。 

我 们 定义 一 个 堆栈 为 stack0， 它 挂 在 dbus 上 ， 同 时 它 的 输出 为 其 顶部 的 两 个 数据 。 如 图 8-5 
所 示 ，ram0 、 地 址 总 线 abus 以 及 刚刚 添加 的 stack0 ， 现 在 这 些 都 已 经 加 入 到 了 CPU 设计 中 。 


| 堆栈 qnext 
stack0 





dtop 





addr 
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存储 器 4 | ” 输出 
ram0 obuf0 
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图 8-5 包含 存储 器 、 堆 栈 和 输出 端口 的 TinyCPU 框图 
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注意 图 中 ， 我 们 使 用 数字 逻辑 中 的 通用 设计 ， 字 母 d 代表 数据 输入 到 一 个 模块 ， 而 字幕 q 代 


表 数 据 输出 。 值 得 注意 的 是 堆栈 的 输出 qnext 和 qtop 也 将 最 终 连 A B 
接 到 dbus 上 。 然 而 ， 当 ALU 连接 到 系统 时 ， 这 一 细节 就 会 立即 


添加 进来 。 
状态 
8. 5. 4 ”逻辑 运算 功能 选择 \ 肖 六 


n 1 


n 


4.2 节 已 经 从 功能 和 设计 两 方面 介绍 了 ALU， 并 展示 了 它 所 





提供 的 逻辑 和 算术 运算 。 显 然 ， 这 个 CPU 中 需要 一 个 ALU 进行 输出 
0 图 8-6 TinyCPU 内 连接 的 通用 

在 堆栈 体系 结构 系统 中 ，ALU 的 A 和 B 输 入 总 是 从 栈 顶 两 算术 逻辑 单元 (ALU) 
项 取 数 〈 当 前 设计 命名 为 qtop 和 qnext) ， 输 出 也 总 是 反馈 到 夫 模型 


栈 。 在 TinyCPU 中 堆栈 输入 通过 数据 总 线 传送 ， 因 此 ，ALU (alu0) 输出 与 主 总 线 相连 。 如 
图 8-7 所 示 ， 栈 顶 也 直接 和 数据 总 线 相连 ， 以 便 在 需要 时 把 数据 直接 反馈 到 数据 总 线 。 
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图 8-7 包含 一 个 连接 到 内 部 总 线 和 堆栈 的 ALU (alu0) 的 TinyCPU 框图 ， 
ALU 输入 端口 标记 为 a 和 b， 输 出 端口 标记 为 s 
我 们 还 需要 收集 ALU 的 状态 输出 ， 以 满足 随后 的 条 件 指令 的 需要 ， 并 且 需 要 指定 ALU 对 从 
堆栈 来 的 数据 执行 什么 功能 的 操作 。 这 些 连接 没有 包含 在 系统 框图 中 ， 但 值得 记 住 的 是 ， 连 同 用 
来 控制 每 个 锁 存 器 和 缓冲 器 〈 用 于 仲裁 与 总 线 的 连接 ) 的 信号 一 起 ， 我 们 也 需要 这 些 信 和 号 。 
我 们 后 面 将 看 到 TinyCPU 实际 上 比 4.2. 2 节 讨 论 的 基本 类 型 的 ALU 智能 一 点 ， 这 涉及 条 件 
指令 在 TinyCPU 中 的 处 理 方式 。 更 智能 并 不 影响 图 8-7 中 的 数据 通路 ， 而 是 影响 控制 信号 。 





8.5.5 指令 处 理 

我 们 在 前 面 提 到 指令 位 于 ram0 中 ， 这 些 指令 都 是 二 进 制 机 器 码 。 指 令 在 内 存 中 根据 它们 的 
地 址 辨别 ， 并 且 如 同 大 多 数 CPU 一 样 ， 程 序 计 数 器 (pc0) 保存 执行 的 下 一 条 指令 的 地 址 ， 当 从 
RAM 中 访问 下 一 条 指令 时 ，pc0 将 会 驱动 地 址 总 线 。 当 程序 跳 转 到 一 个 新 的 地 址 时 ， 这 个 地 址 的 
值 需要 加 载 到 程序 计数 器 ， 这 样 除了 驱动 地 址 总 线 ，pc0 还 可 以 从 地 址 总 线 上 加 载 。 

由 于 ram0 的 数据 通过 数据 总 线 输出 ，CPU 中 负责 保存 、 解 码 和 执行 每 条 指令 的 单元 理 所 
应 当 要 能 从 相同 的 数据 总 线 加 载 指 令 。 这 个 单元 就 是 指令 寄存 器 〈ir ) 。 有 时 指令 中 会 包含 立 
即 数 或 者 分 支 目 标 地 址 值 ， 它 们 将 分 别 通 过 数据 总 线 和 地 址 总 线 被 送 到 stack0 和 pe0 中 。 因 





此 ， 指 令 寄存 器 在 适当 的 时 候 需 要 有 向 数据 总 线 或 者 地 址 总 线 输出 的 能 力 。 这 种 结构 如 图 8-8 
所 示 。 
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addr 存储 器 d d 


ram0 


输出 
obuf0 


out 
图 8-8 ”加 入 指令 寄存 器 (ii0) 和 程序 计数 器 (pc0) 后 的 TinyCPU 框图 
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8. 5.6 系统 控制 


TinyCPU 基本 上 已 经 完整 了 ， 至 少 就 数据 通路 和 地 址 通路 来 说 我 们 都 考虑 到 了 。 然 而 ， 对 
CPU 的 运行 来 说 有 几 件 事 仍然 是 必需 的 ， 即 需要 控制 总 线 来 开关 锁 存 器 和 缓冲 器 (为 清晰 起 见 ， 
我 们 此 处 省 略 ) 以 及 一 个 控制 器 通过 控制 总 线 来 调节 CPU 中 的 操作 顺序 。 

图 8-9 中 包含 了 额外 的 一 个 模块 一 一 状态 机 控制 器 〈state0) 。 图 中 并 没有 显示 它 与 CPU 中 其 
他 单元 的 连接 ， 它 确实 不 与 数据 总 线 或 者 地 址 总 线 相连 ， 然 而 ， 它 却 几 乎 广泛 地 与 TinyCPU 中 的 
每 个 单元 和 总 线 驱动 器 都 相连 。 
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图 8-9 TinyCPU 内 部 结 爸 及 连接 安排 完整 框图 ， 包 含 除 控制 信号 外 的 所 有 部 分 


我 们 将 在 8. 6. 1 节 研 究 这 个 CPU 中 的 操作 顺序 以 及 控制 方面 的 内 容 ， 不 过 ， 我 们 有 必要 首 
先 讨 论 它 的 指令 集 ， 因 为 它 将 严重 影响 到 控制 系统 ， 并 在 一 定 程度 上 影响 体系 结构 细节 。 


8.6 指令 


显然 TinyCPU 的 功能 主要 是 算术 和 逻辑 ， 因 此 这 些 指令 在 指令 集中 占有 极 大 比重 。8. 5 节 要 
求 CPU 有 一 个 功能 齐全 的 可 用 指令 集 ， 所 以 条 件 和 控制 流 操作 也 要 被 包含 进来 。 

表 8-1 对 TinyCPU 支持 的 指令 进行 编码 。 可 以 看 出 指令 集 是 很 有 规律 的 ， 前 4 个 最 高 有 效 
位 决定 了 指令 类 型 ， 任 何 直接 或 者 绝对 地 址 值 被 编码 在 低 12 位 。 下 面 我 们 依次 看 一 下 每 一 条 
指令 。 

表 8-1 TinyCPU 目前 支持 的 10 个 可 能 的 16 位 指令 类 型 
十 六 进 制 
OXXX 








X (任意 ) 
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( 续 ) 
























































助 记 符 15 |114|113|112|11 十 六 进 制 
PUSHI I 0|10|1011 I (有 符 叶 整数 ) 1000 +I 
PUSH A 0|01110 A《 无 符号 整数 ) 2000 +A 
POP A 0|0|1111 A 3000 +A 
JMP A 0 1 0 | 0 A 4000 + A 
JZ A 0|1|1011 A 5000 + A 
JNZ A 0 | 1 1 | 0 A 6000 +A 
IN 1 |1|1011 X D000 
OUT 1|11 1 110 X E000 

Po 


bb 
BE 


o 


HALT 指令 被 用 来 终止 处 理 器 操作 。 这 在 程序 终止 时 是 合法 事件 ， 而 且 它 是 一 种 安全 功 
能 ,可 以 在 一 个 意外 的 程序 分 支 使 CPU 跳 转 到 其 程序 代码 之 外 时 发 挥 作 用 。 在 这 种 情况 
下 ， 跳 转 到 未 初始 化 的 内 存 可 能 导致 一 条 “指令 ”被 读 和 人 ， 其 值 为 数字 值 0 一 一 这 样 使 
处 理 器 终止 而 不 是 错误 地 继续 操作 。 

PUSHI I 指令 把 立即 数 压 人 堆栈 。I 的 数值 可 以 是 以 12 位 表示 的 最 大 值 ， 而 机 器 (包括 
堆栈 ) 是 16 位 宽 的 。 这 样 ， 对 压 人 堆栈 的 立即 数 首先 进行 符号 扩展 ， 和 否则 就 不 可 能 把 负 
值 压 入 堆栈 。 

PUSH A 指令 检索 ram0 中 存储 位 置 A 的 内 容 并 把 它 压 人 堆栈 。 

POP A 指令 执行 相反 的 操作 ， 从 栈 项 弹出 数据 并 把 它 保存 到 RAM 的 地 址 A 中。 

JMP A，JZ A 和 JNZ A 指令 分 别 表示 总 是 跳 转 到 地 址 A 执行 下 一 条 指令 ,或 者 当 栈 项 弹 
出 的 数据 项 是 0 (JZ) 或 非 0 (JNZ) 时 跳 转 到 地 址 A 执行 下 一 条 指令 。 跳 转 的 过 程 涉及 
被 编码 成 机 器 码 程序 和 保存 在 程序 计数 器 中 的 绝对 地 址 A。 请 注意 除了 NZ 和 2Z 外 ， 跳 转 
不 支持 其 他 条 件 ， 因 而 ， 必 须 以 其 他 的 方式 (后 面 将 讲 到 ) 支持 大 范围 的 传统 条 件 (如 
GT、LE 等 )。 

IN 指令 读 取 输入 端口 并 把 值 压 入 堆栈 。 

OUT 指令 弹出 栈 顶 值 并 把 它 锁 存 到 输出 缓冲 中 。 

OPTf 本 身 并 不 是 一 条 指令 ， 它 是 一 类 指令 。 这 些 指令 使 ALU 执行 f 中 的 编码 所 要 求 的 功 




















由 于 ALU 与 栈 顶 的 两 项 相连 ， 因 此 该 功能 可 以 使 用 这 些 堆 栈 值 。 


OPT 指 令 类 目前 编码 了 19 个 独立 的 操作 (尽管 保留 了 5 位 用 来 区 分 了 位 域 的 操作 ， 但 最 
多 可 以 人 额外 添加 13 个 操作 ) 。 大 部 分 操作 通过 它们 的 助 记 符 就 可 以 明白 它们 的 功能 : 其 中 16 
个 涉及 双 操 作 数 (来 自 栈 顶 qtop 和 次 栈 顶 anext) ， 因 此 将 输出 结果 写 人 堆栈 前 应 先 把 堆栈 


弹出 。 





有 三 个 操作 是 一 元 的 ， 即 仅仅 从 栈 顶 qtop 取 数 进行 操作 ， 然 后 再 返回 到 堆栈 。 在 这 种 情况 
下 ， 弹 出 是 没有 必要 的 ， 因 为 在 一 元 指令 中 用 到 的 栈 项 的 单个 值 将 会 直接 被 结果 和 窗 盖 。 
表 8-2 给 出 了 TinyCPU 目前 提供 的 数据 操作 。 
表 8-2 TinyCPU 的 OP 指令 类 格式 : 算术 、 座 辑 、 单 一 乘法 指令 及 较 不 经 常 使 用 的 比较 指令 




















助 记 符 4 3 2 1 0 十 六 进 制 栈 顶 内 容 弹出 ? 
ADD 0 0 0 0 0 F000 next + top Y 
SUB 0 0 0 0 1 FO01 next- top Y 
MUL 0 0 0 1 0 F002 next * top Y 
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( 续 ) 
助 记 符 4 3 2 1 0 十 六 进 制 栈 顶 内 容 弹出 ? 
SHL 0 0 0 1 1 F003 | next >> top Y 
SHR 0 0 1 0 0 F004 next << top Y 
BAND 0 0 1 0 1 FOO0S next&top Y 
BOR 0 0 1 1 0 F006 next | top Y 
BXOR 0 0 1 1 1 F007 next’top Y 
AND 0 i 0 0 0 F008 next&&top Y 
OR 0 1 0 0 1 F009 next | | top 了 
EQ 0 1 0 1 0 | FOOA next == top Y 
NE 0 1 0 1 i FOO0B next 1 = top Y 
GE 0 | 1 1 0 0 FOOC next >= top Y 
LE 0 1 1 | 1 | Poop next <= top Y 
GT 0 1 1 1 0 FOOE next > top Y 
LT 0 1 1 1 1 FOOF next < top Y 
NEG 1 0 0 0 0 FO10 一 top N 
BNOT 1 0 0 0 1 FO11 ~ top N 
NOT 1 0 0 1 0 | F012 1 top N 








几 个 逻辑 比较 (AND，OR，EQ，NE，GE，LE，GT，LT，NOT) 会 在 比较 结果 为 真 时 把 0 
值 压 入 堆栈， 比较 结果 为 假 时 把 非 0 值 压 人 堆栈 。 这 样 ， 如 果 A 大 于 B 就 跳 转 到 子 程序 可 以 用 
下 面 的 指令 序列 实现 : 

PUSHI ValueA 

PUSHI ValueB 

EQ 

JZ Subrout ine 

观察 上 述 指令 集 可 以 发 现 一 些 结构 性 的 机 会 和 限制 ,正如 它 在 任何 其 他 CPU 中 做 的 
那样 。 

首先 ， 考 虑 扩展 TinyCPU 的 可 能 性 。 我 们 已 经 注意 到 几 种 可 能 的 f 位 组 合 还 没有 被 使 用 一 一 
最 多 可 以 额外 添加 13 个 操作 。 以 同样 的 方式 ， 机 器 码 指令 集中 4 个 最 高 有 效 位 可 以 编码 16 种 可 
能 的 变化 ， 但 只 有 10 个 使 用 到 了 ， 因 此 最 多 可 以 额外 添加 6 个 操作 。 

在 机 器 码 字 中 的 输入 和 输出 指令 只 需要 4 位 : 低 12 位 (目前 在 这 些 指令 中 还 未 用 到 ) 可 能 
指定 进一步 的 信息 ， 例 如 允许 输出 立即 数 ， 允 许 输 出 和 输入 指定 内 存 地 址 中 的 数据 。 另 外 ， 可 以 
支持 多 个 输入 /输出 端口 ， 或 者 可 以 把 指令 变 成 条 件 式 。 

因此 在 指令 集 内 有 很 多 机 会 进行 进一步 扩展 ， 可 以 提供 单 总 线 堆 栈 体 系 结构 支持 的 任何 新 
指令 。 这 样 ， 给 定 体系 结构 支持 什么 指令 本 质 上 就 成 为 该 指令 需要 什么 操作 数 和 功能 单元 的 问 
题 了 。 这 属于 控制 系统 领域 。 


8. 6.1 CPU 控制 
3.2.4 节 介 绍 了 CPU 的 控制 单元 ， 它 编织 了 互 连 的 控制 信号 及 时 序 单元 的 网 络 。 即 使 在 像 
TinyCPU 这 种 简单 的 处 理 器 中 这 也 是 一 个 潜在 的 复杂 问题 。 在 这 种 情况 下 ， 为 了 保持 简洁 性 ， 一 


个 非常 简单 的 状态 机 控制 器 将 用 于 CPU 操作 的 同步 。 这 个 基本 状态 机 在 模块 state0 中 实现 ， 如 
图 8-10 所 示 。 








387 
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feset==0 


run==] 


state0 
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图 8-10 TinyCPU 中 使 用 的 状态 ，state0 中 的 状态 转换 及 3 位 状态 编码 


8. 6.1.1 闲置 状态 
刚 局 动 时 CPU 处 于 IDLE 状态 ， 意 味 着 CPU 没有 进行 任何 操作 。 这 样 做 有 几 个 原因 ， 尤 其 是 
连接 外 部 设备 〈 如 闪存 ) 时 需要 等 待 这 些 存 储 设备 变 为 可 用 ， 操 作 才 能 得 以 进行 。 





Bo run 信和 号 使 CPU 开始 正常 执行 操作 ， 从 内 存 中 取 第 一 条 指令 。 一 旦 CPU 进入 正常 操作 模式 ， 


只 能 一 次 执行 一 条 指令 。 只 有 从 RAM 发 出 的 HALT 指令 (或 无 法 识别 的 指令 ) 才 会 使 CPU 重 
二 六 大 IDLE 状态 。 这 通常 表示 一 个 程序 的 终结 。 
8.6.1.2 取 指 状态 

FETCHA 是 正常 操作 中 遇 到 的 第 一 个 状态 。FETCHA 使 程序 计数 器 (pc0， 初 始 化 设置 为 0) 
中 的 地 址 输出 到 地 址 总 线 abus。 然 后 ram0 模块 查找 这 个 内 存 地 址 中 的 内 容 ， 一 旦 发 现 ram0 将 会 
输出 该 内 容 。 

FETCHA 将 自动 在 一 个 时 钟 周 期 后 进入 FETCHB 状态 来 结束 取 指 进程 。 在 FETCHB 状态 ,在 
ram0 中 找到 的 存储 内 容 将 被 允许 来 驱动 数据 总 线 dbus，ir0 会 对 其 进行 锁 存 。 这 时 ， 寄存 器 ir0 
将 包含 pc0 指向 的 ram0 地 址 中 的 指令 机 器 码 。 

事实 上 ， 程 序 计 数 器 pc0 在 从 状态 FETCHA 转换 到 FETCHB 时 会 自动 增加 。 

从 状态 FETCHB 经 过 一 个 时 钟 周 期 后 ， 就 进入 了 下 一 个 执行 状态 : EXECA。 

8. 6.1.3 执行 状态 

通过 首先 执行 指令 解码 功能 ，EXECA 开始 了 指令 的 执行 。 注 意 表 8-1 中 给 出 的 机 器 码 指令 
位 域 ， 在 状态 EXECA， 只 需 通过 检查 指令 的 前 4 位 来 识别 指令 类 。 

根据 不 同 的 指令 类 ， 驱 动 各 种 总 线 的 值 也 有 如 下 不 同 : 





PUSHI 指令 ir0 中 的 低 12 位 驱动 (将 立即 数 压 人 堆栈 )， 这 个 立即 数 的 
符号 位 将 被 扩 展 成 数据 总 线 上 的 前 4 位 。 

PUSH，POP，JMP， 也 ，JNZ 一 一 它们 每 一 个 指定 一 个 绝对 地 址 ， 这 样 io 中 的 低 12 位 用 
来 驱动 地 址 总 线 。 而 数据 总 线 或 者 被 用 来 查找 RAM ， 或 者 被 加 载 到 程序 计数 器 。 

IN 让 输入 线 来 驱动 数据 总 线 ， 然 后 再 把 它 压 人 堆栈 。 

OUT 让 堆栈 来 驱动 数据 总 线 ， 然 后 弹出 堆栈 。 接 下 来 ， 它 会 告诉 输出 缓冲 锁 存 数据 总 线 
上 的 逻辑 值 。 

OP 指令 类 要 求 栈 顶 两 项 进入 ALU，ALU 被 告知 执行 什么 功能 ，ALU 的 输出 驱动 数据 总 
线 ， 数 据 总 线 的 值 被 压 人 堆栈 。 在 指令 使 用 双 操 作 数 的 情况 下 ， 当 堆栈 驱动 ALU 时 必须 
弹出 堆栈 (这 很 容易 实现 ， 因 为 所 有 一 元 指令 都 有 标识 : ir0[4] =1， 如 表 8-2 所 示 ) 。 





对 于 某 些 指令 ， 状 态 EXECA 之 后 需要 跟着 一 个 延续 状态 EXECB ， 但 在 其 他 时 候 ，CPU 会 准 
备 执行 下 一 条 指令 ， 从 而 转换 回 FETCHA。 凡 在 in 中 存储 的 指令 为 0， 就 表明 HALT 指令 已 经 被 
执行 过 了 ， 所 以 在 这 种 情况 下 CPU 必须 转换 到 IDLE 状态 
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对 于 这 里 所 介绍 的 CPU 设计 ， 延 续 状 态 (EXECB) 只 对 PUSH 指令 是 必要 的 。 原 因 是 需要 
有 内 存 查找 作为 指令 的 一 部 分 〈 就 像 指 令 加 载 内 存 查找 时 需要 两 个 取 指 状态 一 样 ) 。 记 住 PUSH 
A 是 把 内 存 地 址 A 中 的 值 压 人 堆栈 。 在 进入 状态 EXECA 时 ， 指 令 已 经 被 加 载 到 in 中 。 在 状态 
EXECA， 内 存 地址 A 的 值 从 指令 寄存 器 输出 到 地 址 总 线 。 然 后 ram0 模块 查找 这 个 内 存 地 址 中 的 
内 容 ， 但 不 能 立刻 在 数据 总 线 上 返回 这 个 值 ， 因 为 从 存储 器 阵列 中 检索 需要 花费 一 些 时 间 。 因 
此 ， 当 RAM 在 数据 总 线 上 返回 这 个 值 时 第 二 个 执行 状态 EXECB 发 生 了 ， 同 时 指示 堆栈 把 当前 数 
据 总 线 上 的 内 容 压 人 堆栈 。 

EXECB 状态 后 紧 跟 的 始终 是 下 一 条 指令 的 取 指 状态 : FETCHA。 


8.7 CPU 实现 


由 于 TinyCPU 将 用 Verilog 实现 ， 因 此 实现 的 第 一 步 就 是 有 一 个 可 用 的 Verilog 编译 器 。 从 Al- 
tera 和 Xilinx 上 免费 下 载 的 FPGA 设计 工具 (在 编写 本 书 时 分 别 命名 为 Quartus 和 ISE) 是 适合 
的 。 然 而 ， 两 者 的 安装 和 使 用 入门 都 是 庞大 而 烦琐 的 工作 。 在 一 般 情 况 下 ， 作 者 更 倾向 于 只 用 
ModelSim 对 YHDL 和 Verilog 进行 仿真 和 测试 。 然 而 ， 由 于 这 个 工具 可 能 无 法 向 许多 读者 免费 提 
供 ”， 因 此 附录 下 介绍 了 一 个 轻 基 级 的 开源 替代 品 。 

在 本 书 中 ，TinyCPU 将 只 在 仿真 环境 中 实现 和 测试 。 然 而 ， 一 且 仿 真 工作 完成 ， 将 它 移植 到 
硬件 平台 上 的 FPGA 中 是 很 容易 的 。 同 样 ， 读 者 可 以 到 Nakano 教授 的 网 站 ， 在 那里 可 以 找到 
CPU 映射 到 一 个 Xilinx Spartan-3E 人 门 套件 的 实例 ,包括 输入 键 的 驱动 程序 以 及 LED 和 LCD 两 
个 输出 代码 。 


8.7.1 测试 的 重要 性 


HDL 代码 通常 以 模块 化 的 方式 开发 。 这 些 模块 有 明确 定义 的 输入 /输出 端口 ， 并 执行 特定 的 
功能 ， 它 们 相互 独立 ， 只 通过 这 些 输入 和 输出 相互 作用 。 

开发 代码 时 ， 通 常 一 次 编写 一 个 模块 并 按照 它 的 接口 定义 进行 测试 。 只 有 经 过 测试 且 可 以 
正常 工作 的 模块 才能 被 并 人 到 更 大 的 设计 中 。 在 强 层 次 化 的 设计 结构 中 ， 每 个 模块 可 能 进一步 
包括 多 个 模块 。 

测试 模块 的 方法 是 创建 一 个 测试 平台 (testbench) 。 熟 悉 C 编程 的 人 可 以 把 模块 想象 成 一 个 
main 函数 ， 给 模块 提供 各 种 输入 参数 ， 然 后 研究 模块 运行 时 不 同 的 输出 参数 。 一 个 好 的 测试 平 
台 对 预期 行为 编码 ， 然 后 把 实际 的 输出 与 预期 行为 作 比 较 ， 找 出 它们 之 间 的 差异 。 

这 样 ， 如 果 合并 在 较 大 设计 中 的 一 个 模块 日 后 做 了 轻微 的 修改 ， 仍 然 可 以 将 它 “ 插 ” 回 到 
它 自己 的 测试 平台 ， 在 隔离 状态 下 对 它 进 行 行为 验证 。 

我 们 要 确保 整个 设计 过 程 都 提供 测试 平台 。 然 而 ， 现 在 的 建议 是 在 阅读 接 下 来 的 章节 时 认 
为 设计 过 程 只 涉及 主要 Verilog 源 代码 。 随 后 ， 在 8. 8 节 中 ， 我 们 将 研究 使 用 测试 平台 来 验证 代 
码 的 过 程 。 


8.7.2 定义 操作 和 状态 : defs.v 


首先 ， 在 开始 任何 逻辑 定义 之 前 ， 有 必要 定义 一 种 在 逻辑 块 之 间 使 用 的 通用 位 定义 语言 。 在 
8.6 节 中 ， 我 们 介绍 了 指令 集 ， 以 及 每 个 机 器 码 指令 类 中 每 个 位 的 定义 。 为 了 增加 TinyCPU 代码 
的 可 读 性 ， 我 们 可 以 用 名 称 以 及 与 汇编 助 记 符 一 致 的 位 定义 来 定义 一 些 常 量 。 同 样 ，8. 6. 1 节 介 
绍 了 处 理 器 中 使 用 的 各 种 运行 状态 ,这些 状态 也 可 以 用 名 称 定义 。 














昌 在 编写 本 书 时 ， 有 一 个 人 免费 的 6 个 月 的 学 生 模 拟 版 可 用 。 
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所 有 的 这 些 常量 定义 使 我 们 能 够 创建 一 个 包含 在 所 有 其 他 Verilog 源 文 件 中 的 头 文件 ， 就 像 
我 们 在 C 编程 语言 中 使 用 .h 文件 一 样 。 这 些 定 义 存储 在 一 个 名 为 “defs.v” 的 文件 中 ， 

程序 清单 8. 1 再 现 了 这 个 文件 。 

程序 清单 8. 1 defs.v 





‘define IDLE 3 "Pbp000 
‘define FETCHA 3‘b001 
‘define FETCHB 3’b010 
‘Gefine EXECA 3’b01l 
‘define EXRCB 32b100 








‘define ADD 5'b00000 
‘define SUB 5’b00001 
“define MUL 5"b00010 
10 ‘define SHL 5’b00011 
11 ‘define SHR 5"b00100 
12 ‘define BAND 5’bO0101 
13 ‘define BOR 5’b00110 
14 ‘define BXOR 51b00111 
15 ‘define AND 5’b01000 
16 ‘define OR 5’b01001 
17 ‘define FQ 5’bO1010 
18 ‘define NE 5’b01011 
19 ‘define GE 5b0O1100 
20 ‘define LE 55p0O1101 
21 ‘define GT 5’b0O1110 
22 ‘define LT 5’b0O1111 
23 ‘define NEG 5'b10000 
24 ‘define BNOT 5‘b10001 
25 ‘define NOT 5"b10010 


‘CPUNTDTNIA 人 oD 











27 ‘define HALT 4'p0000 
28 ‘define PUSHI 4'b0001 
29 ‘define PUSH 4'pb0010 
30 ‘define POP 4’b0011 
31 ‘define JMP 4b0100 
32 ‘define JZ 4’b0101 
33 ‘define JNZ 4‘b0110 
34 ‘define IN 4'b1101 
35 ‘define OUT 41b1110 
36 ‘gdefine OP 4b1111 








8.7.3 第 一 个 小 模块 : counter.V 


由 于 TinyCPU 在 它 的 设计 内 部 包含 许多 寄存 器 和 缓冲 区 ， 因 此 使 用 一 个 标准 组 件 来 实现 这 些 
项 目 是 有 意义 的 。 这 样 做 的 第 一 步 工作 就 是 弄 清 楚 它 们 需要 做 什么 。 首 先 ， 各 寄存 器 需要 存储 二 
进 制 字 ， 在 总 线 上 输出 ， 从 其 他 总 线 上 加 载 一 个 新 值 以 及 重 置 为 0。 就 程序 计数 器 pc0 来 说 ， 寄 
39] 存 器 还 需要 在 适当 的 时 候 递 增 地 址 (为 获取 下 一 条 指令 做 准备 ) 。 
! 一 些 寄 存 器 可 能 不 会 用 到 的 功能 : 如 果 当 模块 实例 化 时 有 些 硬 连 线 处 于 非 活动 状态 ，Verilog 
392| 编译 器 会 简单 地 忽略 掉 该 功能 的 逻辑 。 
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考虑 到 这 些 需求 ， 一 个 满足 要 求 的 简单 计数 器 的 输入 /输出 规格 说 明 如 下 所 示 : 





含义 示 含义 
号 | i | 系统 时 钟 load | in “| 触发 计数 器 存储 当前 输入 数据 总 线 上 的 逻辑 什 








| 增加 存储 馆 辑 值 的 信号 


输 = 


低 电 平复 位 ， 进 入 闲置 状态 | 
输入 数据 总 线 




















总 线 ， 映 射 存储 的 逻辑 值 





请 注意 TinyCPU 跟 其 他 几乎 所 有 的 CPU 一 样 是 同步 设计 ， 从 而 系统 时 钟 在 它 的 设计 中 是 一 
个 主要 部 分 ， 它 定义 了 系统 操作 的 时 序 ， 因 此 需要 被 送 到 几乎 每 个 Verilog 模块 。 除 了 时 序 因素 
外 ， 计 数 器 的 Verilog 源 代 码 是 很 简单 的 ， 如 程序 清单 8. 2 所 示 。 参 数 N 允许 为 不 同 的 总 线 带宽 
定义 countery 模块 。 在 这 种 情况 下 ， 我 们 有 一 个 16 位 的 体系 结构 ， 所 以 N 被 默认 设 定 为 16。 

如 上 所 述 ， 这 个 计数 器 将 被 实例 化 并 在 CPU 设计 的 许多 地 方 使 用 ， 包 括 以 下 单元 : 

。 程序 计数 器 (pc0) 

。 指令 寄存 器 〈ir0 ) 

。 输出 缓冲 区 (obuf0) 

程序 清单 8. 3 提供 了 一 个 简单 的 测试 平台 来 测试 这 个 计数 器 。 

程序 清单 8 2 counter.v 





module counter{(clk,reset, load,inc,d,dq); 
parameter N = 16; 


1 

2 

3 

4 input clk,reset,l1oad,inc; 
5 input [N-1:0] Q; 

6 output [N-1:0] a; 

7 reg [IN-1:0] aq; 

8 

9 


always @{posedge clk or negedge reset) 


10 if(l!ireset) G <= 0; 

11 else if(load) G <= 4d; 

12 else if(linc) gq <= q+1; 
13 


14 endmodule 





程序 清单 8. 3 counter_tb.v 








1 ‘timescale 1ns / lps 

2 module counter.tb; 

3 reg clk, reset, loagd, inc; 

4 reg [15:0] d; 

5 wire [15:0] qa; 

6 counter counter0(.clk(clk), .reset (reset), .load(load), 
.inc(inc), .d(d), .q(q)); 


7 
8 initial begin 
9 


CIk=0; 
10 forever 
11 #50 CIK = ~clk; 
12 end 
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14 initial begin 


15 reset=0; load= 


16 #100 reset=1; 
17 #100 inc=1; 


0:; inc-0; d=16’h0000,，; 


18 #300 inc=0; load=1; d=16'h1234; 
19 #100 inc=1; load=0; d=16’h0000; 


20 #500 reset=0; 
21 enG 
22 endmodule 





计数 器 模拟 、 绘 制 波形 以 及 比较 d 和 g 的 值 应 该 表现 出 加 载 、 递 增 和 复位 功能 以 及 输出 q。 
下 一 步 ， 我 们 考虑 的 是 TinyCPU 中 的 操作 序列 以 及 如 何 控制 它 。 


8.7.4 CPU 控制 : state 


V 


在 8.5.6 节 和 8.6.1 节 中 描述 的 状态 机 state0 控制 TinyCPU 的 操作 。 它 有 5 个 状态 (因此 需要 3 
位 进行 编码 ) ， 状 态 间 的 转换 基于 系统 时 钟 clk 再 加 上 下 面 接口 定义 表 中 所 示 的 几 个 控制 信号 ; 









































标示 方向 含义 标示 方向 含义 
393 ckk in 系统 时 钟 cont i 表明 需要 再 次 执行 状态 的 连续 信号 
! Teset in 低 电 平 复位 ， 进 人 空闲 状 态 halt 终止 CPU 操作 ， 但 是 回 沙 到 空 用 状态 
394 | run 如 果 CPL 处 上 空闲 状态 ， 触 发 CPU 运行 Dcs[2:0] 3 位 状态 输出 











这 个 模块 只 有 单一 的 输出 : 当前 处 理 器 状态 从 3 根 cs 线 上 反映 出 来 。TinyCPU 中 的 操作 序列 
完全 由 当前 状态 定义 ， 所 有 项 目 必 须 在 适当 的 时 候 协 同 工 作 ， 从 而 使 系统 正确 地 实现 功能 。 在 程 
序 清单 8.4 给 出 的 state.v 的 Verilog 源 代码 中 ， 注 意 状 态 间 的 转换 使 用 的 是 case 语句。 


程序 清单 8. 4 state.v 








1 “include "qefs.v" 

2 

3 module statel(lcik,reset,run,cont,halt,cs); 
4 

5 input clk, reset, run, cont, halt; 

6 output [2:0] cs; 

7 reg [2:0]cs; 

8 

9 always @(posedge clk or negedge reset) 
10 if{l!ireset) cs <= “IDLE; 

11 else 

12 case (cs) 

13 “IDLE: if(run) cs <= “FETCHA; 
14 ‘FETCHA: cs <= ‘FETCHB; 

15 FETCHB: cs <= ‘EXECA; 

16 EXECA: if (halt) cs <= “IDLE; 
17 else if(cont) cs <= ‘EXECB; 
18 else cs <= ‘FETCHA; 

19 “FEXECB: cs <= ‘FETCHA; 

20 default: cs <= 3’'bxxx; 

21 endcase 

22 


23 endmodule 
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状态 机 的 测试 平台 通过 预期 的 输入 控制 信号 reset、run、cont 和 halt 的 变化 序列 产生 3 位 状 
态 位 的 各 种 输出 。 程 序 清单 8.5 给 出 了 一 个 最 小 的 测试 平台 。 
程序 清单 8.5 state_tb.v 





‘timescale 1ns / lps 
module state_tb; 


1 
2 
3 reg clk, reset, run, halt, cont; 
4 wire [2:0] cs; 

5 


state state0(.clk(clk), .resett{reset), .run(run), .cont (cont), 
.halt (halt), .cs(cs)); 


6 
7 initiali begin 
8 


clk=0; 
9 forever 
10 #50 clk = ~clk; 
1] end 
12 


13 initial begin 

14 reset=0; run=0; halt=0; cont=0; 
15 #100 reset=1; run=1 

16 #100 run=0; 

17 #200 cont=1; 

18 #100 cont=0; 

19 #600 halt=1; 

20 #100 halt=0; 

21 engd 

22 endmodule 





8. 7.5 程序 和 变量 存储 : ram.v 


正如 8. 5.3 节 所 讨论 的 ，RAM 模块 在 TinyCPU 中 有 两 个 作用 : 首先 ， 是 作为 程序 代码 的 存 
储 区 域 ， 它 在 FETCH 状态 时 要 被 检索 ; 其 次 ， 是 作为 变量 的 存储 区 域 。TinyCPU 不 包含 寄存 器 
组 。 相 反 ， 它 依赖 于 堆栈 结构 。 如 果 代 码 中 用 到 的 变量 超过 了 堆栈 的 容纳 量 ， 或 者 命令 中 用 到 的 
大 数据 块 或 变量 不 一 定 方便 用 堆栈 处 理 ， 那 么 这 些 变量 将 被 存储 到 别 的 地 方 。 因 此 ， 任 何 内 存 地 
址 都 能 用 来 保存 数据 或 者 存储 变量 。 

这 意味 着 ram0 应 当 是 一 个 可 读 写 的 可 寻 址 的 存储 器 。 基 于 这 个 目的 ， 大 多 数 现 代 FPCA 结 
构 中 包含 专用 的 RAM。 但 是 ， 默 认 的 而 且 是 最 简单 的 方法 是 使 用 FPGA 逻辑 块 中 的 触发 器 用 于 
位 编码 存储 。 然 而 ， 这 比较 “昂贵 ”"， 因 为 虽然 每 个 逻辑 块 或 逻辑 单元 (注意 对 于 这 些 FPCA 中 











的 最 小 可 编程 单位 ， 不 同 的 厂家 有 不 同 的 名 称 ) 可 能 只 包含 一 个 单一 的 触发 器 ， 但 它 也 将 包含 
一 个 组 合 逻 辑 的 配置 块 ， 各 种 缓冲 区 ， 可 能 还 包含 一 个 查找 表 ， 如 果 触 发 器 用 来 存储 内 存 中 的 某 
个 位 ， 那么 其 他 资源 大 部 分 将 被 浪费 。 

RAM 模块 与 CPU 的 其 他 模块 一 样 也 是 同步 的 ， 它 需要 一 个 与 外 界 相连 的 很 简单 的 接口 : 









含义 








含义 





clk in | 系统 时 钟 
load | in | 触发 计数 器 存 情 当前 输入 数据 总 线 逻 辑 值 的 信和 号 
地 址 总 线 


输入 数据 总 线 
存储 在 addr 地 址 上 的 输出 数据 字 


























395 











396 
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程序 清单 8. 6 中 给 出 的 源 代码 以 非常 简单 的 方式 实现 了 RAM 模块 。 数 据 和 地 址 位 宽 是 可 配 
置 的 ， 这 里 我 们 设 定 为 16 位 的 数据 总 线 和 12 位 的 地 址 总 线 。 整 个 4096 字 的 内 存 区 域 被 初始 化 
为 6， 然 后 一 些 值 被 加 载 到 前 名 个 地 址 位 置 。 

例如 ， 注 意 加 载 12"p001 那 一 行 。 这 是 第 二 个 地 址 的 位 置 ， 我 们 指定 的 值 16'h3010 将 被 初始 
化 存储 到 这 个 位 置 上 。 从 8. 6 节 对 指令 集 的 讨论 我 们 知道 ， 机 器 码 0x39160 对 应 的 是 带 参 数 0x10 
的 POP 指令 。 这 个 参数 就 是 堆栈 弹出 的 值 要 被 送 入 的 内 存 地 址 。 在 这 种 情况 下 ， 看 一 下 地 址 
12’h010 的 说 明 ， 我 们 注意 到 一 个 数值 0 已 经 初始 化 在 储 在 这 个 位 置 (我 们 现在 将 覆盖 它 )， 并 且 
从 注释 上 和 看， 我 们 这 个 位 置 用 来 存储 变量 n。 

程序 清单 8.6 ram.v 





module ram(clk, load, addr, d, gq); 
parameter DWIDTH=16,AWIDTH=12,WORDS=~=4096; 


1 
2 
3 
4 input clk,1load; 

5 input [AWIDTH-1:0] addr; 

6 input [DWIDTH-1:0] qd; 

7 output [DWIDTH~1:0] q; 

8 reg [DWIDTH-1:0] a; 

9 reg [DWIDTH-1:0] mem [WORDS-1:0]; 


10 

11 always &(posedge clk) 

12 begin 

13 if{(load) memladdr] <= d; 
14 G <= mem[laddr]; 

15 ena 

16 


17 integer i; 
18 initial begin 








19 for(i=0;i<WORDS;i=i+1) 

20 mem[il=0; 

21 mem[12'h000] = 16'hD000; /7 IN 

22 mem[12’h001] = 16h3010; // POP nn 
23 mem[12'h002] = 16’h2010; /7 Ll: PUSH n 
24 mem[12'nh003] = 16’hE000; // QUT 

25 mem[12'n004] = 16h2010; A/ PUSH nN 
26 mem{l12’nh005) = 16'n500F,; // JZ L2 
27 mem{12‘h006] = 16h2010; /7 PUSH n 
28 mem{12’hn007] = 16’n1001; /4 PUSHIT 了 
29 mem{[12’h008] = 16'nF001; /1 SUB 

30 mem{12'h009] = 16’h3010; /1 POP n 
31 mem[12’h00A] = 16’'hDp000; /7/ IN 

32 mem{12’h00B] = 16'h1i005; /1/ PUSHI 5 
33 mem[122n00C] = 16'hF001; /1 SUB 

34 mem{[12h00D] = 16'nE000; /1/ OUT 

35 mem[12h00E] = 16'h4002; /1/ JMP L1 
36 mem[12'h00F] = 16'h0000; /1/ 了 2 : HALT 
37 mem[12'hn010] = 16'h0000; // n: 0 

38 end 

39 


40 endmodule 
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一 个 验证 RAM 操作 的 简单 测试 平台 只 需要 读 取 一 些 预 定义 的 位 置 ， 然 后 测试 对 数据 变量 的 


读 写 操作 。 程 序 清单 8.7 中 所 示 的 测试 平台 


， 首 先 读 取 RAM 中 预定 义 的 一 些 指 令 


， 然 后 写 人 到 


变 生 位 置 n。 然 后 它 从 位 置 n 回 读 。 在 读 操作 的 过 程 中 ， 应 该 对 输出 线 q 上 的 数据 值 加 以 验证 ， 
以 确保 它 分 别 正 确 地 与 要 求 的 机 器 码 指令 字 及 变量 n 的 内 容 相 匹配 。 





程序 清单 8.7 ram_ib.v 

1 ‘timescale lns / 1ps 

2 module ramtb; 

3 reg clk, load; 

4 reg [7:0】 addr; 

5 reg [15:0] d; 

6 wire [15:0] a; 

7 

8 ram ram0O(.clk(clk), .load(load), .addr (addr), .d(d), .gq(q)) 
9 

10 initial begin 

11 clk=0; 

12 forever 

13 #50 clk = ~clk; 

14 end 

15 

16 initial begin 

17 reset=0; load=0; d=0; 

18 #100 reset=1; addr=12‘h000; 

19 #100 addr=12’h001; 

20 #100 addr=12‘h006; 

21 #100 addr=12’h010; load=1; d=8'h55; 
22 #100 addr=12’h00D; load=0; d=0; 
23 #100 addr=12nh010; 

24 end 

25 endmodule 





8.7.6 堆栈 : stack.v 


在 8.5.3 节 讨 论 的 堆栈 模块 ， 它 的 功能 是 负责 存储 数据 ， 这 些 数据 位 于 当前 操作 序列 中 一 一 
即 从 一 个 操作 中 输出 的 数据 或 者 将 要 被 一 个 操作 所 运用 的 数据 或 者 是 两 者 的 结合 。 

TinyCPU 的 堆栈 支持 标准 的 POP 和 了 PUSH 操作 。 此 外 ， 它 能 够 在 栈 项 载 人 一 个 值 ， 履 盖 栈 项 数 
据 ， 这 种 操作 在 一 些 特定 情况 中 会 用 到 。 顶 部 和 第 二 个 堆栈 项 在 输出 qtop 和 qnext 中 总 是 可 见 的 : 
































信号 方向 定义 

clk in 系统 时 钟 

Teset in 清空 堆栈 

load in 将 当前 数据 总 线 d 上 的 数据 置 于 栈 顶 的 位 置 ， 其 他 保持 不 变 

push in | ”将 堆栈 内 所 有 项 往 下 推 一 个 单元 ; 位 于 顶部 的 项 移 到 第 个 位 置 ， 原 来 的 第 二 
项 移 到 第 三 个 位 置 ， 以 此 类 推 。 栈 底 项 出 栈 。 如 果 也 设置 了 load 指令 ， 则 当前 位 
于 数据 总 线 d 上 的 数据 将 只 会 进入 栈 项 

Pop in 将 处 于 堆栈 中 第 一 个 位 置 的 项 移 到 栈 项 ， 其 他 依次 上 移 

d in 输入 数据 总 线 

gtop out 处 于 栈 顶 的 输出 数据 字 

qnext out 处 于 楼 中 第 一 个 位 置 的 输出 数据 字 
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以 上 所 示 的 与 外 部 连接 的 接口 在 功能 上 上 比 RAM 模块 的 多 一 些 。 但 存储 容量 却 较 之 小 了 许 


多 。 实际 上 ， 在 种 二 和 中古 丰 的 入 的 深度 仅 为 8《 由 于 和)， 





不 过 如 果 有 要 求 ， 我 们 可 





以 将 这 个 参数 设置 得 更 大 一 
程序 清单 8.8 stacky 
1 module stackl(clk, reset, load, push, pop, d, gqtop, anext); 
2 parameter N -= 8; 
3 
4 input clk, reset, load, push, pop; 
5 input [15:0] Gd; 
6 output [15:0] gqtop, qnext; 
7 reg [15:0] G [0O:N-1]; 
8 
9 assign qtop = ql[l0l]; 
10 assign qnext = ql[l1]; 
11 
12 always @(posedge clk or negedge reset) 
13 if(!reset) q[0] <= 0; 
14 else if{load) al[0] <= d; 
15 else if(pop) gq[0] <= ql[1]; 
16 
17 integer i; 
18 alwaye @ (posedge clk or negedge reset) 
19 for(i=1;i< N-1;i=i+1) 
20 if(ireset) gq[i] <= 0; 
21 else if(push) G[i]l <= ql[li-1]; 
22 else if(pop) G[il <= ql[i+1i]; 
23 
24 always @ (posedge clk or negedge reset) 
25 if(!reset} q[N-1] <= 0; 
26 else if (push) q[N-1] <= gq[N-2]; 
27 


28 endmodule 





通过 将 数据 压 人 栈 内 然后 再 将 它 弹 出 栈 外 的 方法 ， 我 们 可 以 测试 栈 的 操作 。 





一 个 更 全 面 的 


测试 就 是 检查 不 同 顺序 的 push 和 pop 操作 。 然 而 ， 由 于 这 个 例子 中 堆栈 编码 相对 简单 ， 我 们 将 
只 是 直接 地 按 先 push 后 pop 的 次 序 再 加 一 个 load 操作 来 进行 测试 ， 如 程序 清单 8.9 所 示 。 


程序 清单 8.9 


‘timescale lns / lps 
stack.tb; 
reg clk, reset, 
[15:0] dad; 
wire [15:0] gtop; 


stack_tb.v 





module 
load, push, pop; 
reg 


wire [15:0] qnext; 


OITA 


clk(clk), 
.4(d), 


.reset (reset), .load(1load), 
.qtop {qtop), .qnext (qnext)); 


stack stack0(. 
.Pop (pop), 


10 initial begin 











.push (push), 
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11 Clk=0; 

12 forever 

13 #50 clk = ~clk; 
14 end 

15 


1l6 initial begin 

17 reset=0:， load=0; push=0; pop=0; d=0; 
18 #100 reset=1; push=1; d=16’h1111; 

19 #100 push=1; d=16’'h2222; 

20 #100 push=1; d=16'h3333:; 

21 #100 push=1; d=16’h4444; 

22 #100 push=1; d=16h5555; 

23 #100 pusn=1; d=16h6666; 

24 #100 push=1; d=16h7777; 

25 #100 push=1; d=16'h8888; 

26 #100 push=1; d=16’'hEEEE; 
27 #100 push=0; pop=1; 

28 #100 pop=1; 
29 #100 pop=1; 
30 #100 pop=1; 
31 #100 pop=1; 
32 #100 pop=1; 
33 #100 pop=1; 
34 #100 pop=1; 
35 #100 pop=0; load=1; d=16'h1234; 

36 #100 load=0; pop=1; 

37 engd 

38 endmodule 400 






































8.7. 7 算术、 有 逻辑 和 先 法 单元 ，alu.v 


ALU ,或 者 蛋 适 当地 称 为 “算术 、 人 逻辑 和 乘法 单元 ”， 人 负责 这 几 种 运算 的 操作 。 在 8.5.4 节 
中 ， 我 们 讨论 了 单 总 线 堆 栈 结构 的 TinyCPU 对 ALU 的 要 求 ， 传 统 的 ALU 的 模块 符号 也 已 经 给 出 。 
然而 ， 这 一 符号 的 形状 和 它 的 描述 跟 ALU 的 Verilog 代码 相差 很 大 ， 我 们 接 下 来 马上 就 会 看 到 这 
一 点 。 首 先 ， 我 们 将 定义 这 个 代码 模块 的 输入 及 输出 : 


信号 方向 定义 信号 方向 定义 
a in 第 一 个 输入 操作 码 f in 多 选 线 来 定义 不 同 的 操作 
第 一 个 输入 操作 码 结果 输出 接口 






























表 中 显示 了 ALU 中 并 没有 时 钟 信号 一 -这 是 异步 操作 。 实 际 上 ，ALU 操作 中 最 慢 的 操作 在 

最 坏 情 况 下 的 传输 延迟 将 决定 这 个 设备 所 支持 的 最 大 时 钟 频率 。， 401 
上 文 提 到 过 ，ALU 的 代码 和 它 的 传统 符号 有 着 很 大 的 不 同 ， 但 却 和 8. 6 节 中 提 到 的 OP 操作 

类 似 。 将 它 与 程序 清单 8. 10 的 代码 作 比较 ， 很 容易 看 出 这 一 点 。 








”注意 ， 当 运用 外 部 RAM 时 ， 到 外 部 RAM 的 load/store 的 操作 会 构成 影响 时 钟 频率 的 限制 因素 。 
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程序 清单 8. 10 aluv 





“include "defs.v" 
modGule alul(la, b, f, s); 
input [4:0] f£; 


output [15:0] 8s; 


1 

2 

3 

4 

5 input [15:0] a, b; 
6 

7 

8 reg [15:0] Ss} 
9 


wire [15:0] x, y; 


11 assign X= ar+r+ 16’n8000; 
12 assign y =b+ 16'h8000; 


14 always @(a or bp or x or y or f) 








15 case (f) 

16 “ADD :;: 8s = b+ a; 
17 “SUB s=b- a; 
18 ~ MUL s=b* a; 
19 “SHL s=b << a; 
20 “SHR Ss=b >> a; 
21 “BAND: s = pe& ai; 
22 ` BOR s=b|a; 
23 “BXOR: s = b"“^ a; 
24 “AND S = DR&& a; 
25 “OR s=b ||a; 
26 EQ s=b == a; 
27 NE s=b LI= a; 
28 “GE S =Yy >= XxX; 
29 “LE s = yy <= x; 
30 GT s=Yy > Xi; 
31 “LT s=Y < x; 
32 NEG : s = -a; 

33 ‘BNOT : s = ~a; 

34 ‘NOT :SS = !a; 

35 default : s = 16’'hxxxx; 
36 endcase 

37 


38 endmodule 








对 ALU 操作 的 测试 并 不 困难 : 搭建 一 个 简单 的 测试 平台 ， 一 些 信号 被 载 人 该 模块 的 输 
人 a、b， 选 择 合 适 的 功能 {f， 检 测 输出 的 正确 性 。 注 意 ALU 是 异步 操作 ， 由 于 受 传输 延迟 
所 限 ， 不 需要 时 钟 。 然 而 ， 测 试 平 台 是 需要 时 钟 的 〈 和 否则 所 有 的 输入 将 会 在 0 时 刻 快速 地 
载 人 模块 ) 。 当 CPU 被 用 在 实际 项 目 中 时 ， 首 先 全 面 测试 不 同 输入 和 功能 的 组 合 是 一 个 比 
较 好 的 方法 。 不 过 ,在 这 里 ， 我 们 只 是 简单 地 进行 了 一 些 功 能 的 测试 ， 如 程序 清单 8. 11 
所 示 。 





程序 清单 8. 11 alu_tb.v 

i ‘timescale lns / 1ps 

2 modulealutb; 

3 reg clk; 

4 reg [15:0] a; 

5 reg [15:0] b; 

6 reg [4:0] f£; 

7 wire [15:0] 8s; 

8 

9 alu alu0(.a(la}, .b(b}, .f(f), 
10 

11 initial begin 

12 Clk=0; 

13 forever 

14 #50 clk = ~clk; 

15 engd 

16 

17 initial begin 

18 

19 a=16’h0000; b=16’'h1234; 
20 #100 a=16’h000A; b=16’'h0100; 
21 #100 a=16’'h1010; b=16’'hFFFF; 
22 #100 a=16’h0008; b=16'nh1234; 
23 #100 a=16hn0003; b=16h0100; 
24 #100 a=16’h0010; b=16’h0001; 
25 #100 a=16h0000; b=16'h1234; 
26 #100 a=16’h0005; b=16’h0004; 
27 #100 a=16'h0003; b=16’'h0004; 
28 #100 $finish; 

29 end 


30 endmodule 
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-8S(Ss)); 

f=5'b00000; / /ADD 
f=51b00010; //MUL 
f=5'b01000; / /2AND 
f=5"b00100 / /SHR 
f=5b00011; / /SHL 
f=5bO00001; //SUB 
f=51b10010; / /NOT 
f=51b01100; //GE 
f=5b01100; //GE 





8. 7.8 综合 测试 ， tinycpu.v 





TinyCPU 所 执行 的 代码 存储 在 其 内 部 ， 通 过 两 个 接口 和 外 面 连接 : 输入 接口 和 输出 接口 。 然 


而 ，Verilog 模块 需要 由 几 个 信号 来 启动 
运行 。 一 是 系统 时 钟 信号 ; 二 是 全 局 低 电 
平 有 效 的 复位 信号 ; 三 是 使 CPU 开始 操 
作 的 触发 信号 〈 称 为 “run”) 。 

由 于 TinyCPU 是 一 个 为 教学 目的 而 设 
计 的 研究 型 处 理 器 ， 它 的 几 个 内 部 信号 暴 
露 在 上 层 接 口中 。 在 由 Nakano 教授 设计 
并 在 FPGA 开发 平台 上 实现 的 原始 系统 
中 ， 这 些 信号 可 以 通过 7 段 LED 阵列 来 
显示 。 

右 表 定义 了 所 要 求 的 信 导 和 为 了 可 视 
性 被 “ 带 到 ”表面 的 信和 号。 























信号 | 方向 定义 

ck | in | 系统 时 钟 

reset | in | 对 于 整个 CPU 的 全 局 低 电 平 有 效 复位 信号 

mun | in | 用 于 触发 CPU 运行 的 控制 信号 (如 图 8-10 所 示 ) 
in | in | 输入 接口 (可 以 用 IN 指令 读 取 ) 

out | out | 16 位 的 输出 缓冲 区 








为 了 检测 内 部 操作 所 设置 的 可 视 信号 




















cs out | 表示 当前 CPU 状态 
pcout | out 1 12 位 程序 计数 器 
irout | out | 指令 寄存 器 内 容 
qtop | out | 栈 顶 的 值 
out | 12 位 内 部 地 址 总 线 








内 部 数据 总 线 
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最 终 的 TinyCPU 的 源 代码 在 程序 清单 8. 12 中 给 出 。 对 于 一 个 功能 完整 的 16 位 CPU 来 说 ， 这 





段 代码 不 是 特别 长 。 整 段 源 代码 ， 其 中 包括 所 有 的 功能 模块 ， 少 于 500 行 。 毕 竞 ， 它 的 名 字 中 的 
前 缀 是 “Tiny”! 
程序 清单 8. 12 tinycpu.v 





“include "defs.v" 


module tinycpu(clk, reset, run, in, ¢s, pcout, irout, atop, 


abus, dbus, out); 


input clk,reset,run; 

input [15:0] in; 

output [2:0] Cs; 

output [15:0] irout, dtop, dbus, out; 

output [11:0] pcout, abus; 

wire [15:0] anext, ramout, aluout; 

reg [11:0] abus; 

reg halt, cont, pcinc, push, pop, abus2pc, dbus2ir, dbus2atop, 
dbus2ram, dbus2obuf, pc2abus, ir2abus, ir2dbus, 
qtop2dbus, alu2dbus, ram2dbus, in2dbus; 


counter #(12) pc0O{.clk(clk), .reset (reset), .load(abus2pc), 
.inc(pcinc)}, .d(abus), .gq(pcout)); 

counter #(16) irO(.clk(cik), .reset (reset), .load(dbus2ir), 
.inc(0), .d(dbus), .gq(irout)); 

state state0(.clk(clk), .reset (reset), .run{lrun), .cont (cont), 
.halt (halt), .cs(lcs)):; 

stack stack0(.clk(clk), .reset (reset)}, .load(dbus2aqtop)}, 


.push{push), .pop(pop), .d(dbus)}, .qtop (qtop), 

.dnext (qnext ) ) ; 
alu alu0 (.a(lgqtop), .blaqnext), .f(irout[4:0]), .s(aluout)); 
ram #(16,12,4096) ram0{(.clk(clk), .load(dGbus2ram), 

.addr (abus [11:0]), .d(dbus), .gq(ramout)); 
counter #(16) obufO(.clk(clk), .reset (reset), 

.load (dbus2o0buf), .inc{(0}), .d(dbus), .ql(out)); 


always @(pc2abus or ir2abus or pcout or irout) 
if (pc2abus) abus <= pcout; 
else iflir2abus) abus <= irout{11:0); 
else abus <= 12’'hxxx; 


assign dbus = ir2dbus ? {{4{irout[11]}},irout[11:0]} : 
16'hzzz2z} 

assign dbus = qtop2dbus ? qtop : 16’'hzzzz; 

assign dbus = alu2dbus ? aluout : 16’'hzzz2z; 

aseign dbus = ram2dbus ? ramout : 16’'hzzzz; 


assign dbus = in2dbus ? in : 16'hzzz2; 


always (cs or irout or qtop) 
begin 
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halt = 0; pcinc = 0; push = 0; pop = 0; cont = 0; abus2pc 
= 0; Sbus2ir = 0; dbus2gtop = 0; dbus2ram = 0} 
dbus2obuf = 0; pc2abus = 0; ir2abus = 0; ir2dbus = 0; 
gqtop2dbus = 0; alu2dbus = 0; ram2dbus = 0; in2dpbus = 0; 
if(cs == “FETCHA) 
begin 
pcinc = 1; pc2abus = 1; 
end 
else ifl(cs == “FETCHB) 
begin 
ram2dbus = 1; dbus2ir = 1; 
ez 
else if(cs == ‘EXRCA) 
case (irout (15:121)} 
“PUSHI : 
begin 
ir2dbus = 1; dbus2qtop = 1; push = 1; 
end 
“PUSH : 
begin 





ir2abus = 1; cont = 1; 
enad 
“POP : 
begin 
ir2abus = 1; gqtop2dbus = 1; dbus2ram = 1; pop = 1; 
end 
“JMP: 
begin 
ir2abus = 1; abus2pc = 1; 
end 


ir2abus = 1; abus2pc = 1; 


“JNZ: 
begin 
if{atop != 0) 
begin 
ir2abus = 1; abus2pc = 1; 
enG 


in2dbus = 1; dbus2qtop = 1; Push = 1; 
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83 begin 

84 gtop2dbus = 1; dbus2o0buf = 1; pop = 1; 
85 end 

86 “OP: 

87 begin 

88 alu2dbus = 1; dbus2qtop = IT; 

89 if(irout[4] == 0) pop = 1; 

90 end 

91 default: 

92 halt = 1; 

93 endcase 

94 else if(cs == ‘EXECB) 

95 if(irout[1i5:12]==` PUSH) 

96 begin 

97 ram2dbus = 1; dbus2gqtop = 1; push = 1; 
98 end 

99 end 

100 


101 endmodule 





TinyCPU 的 代码 逻辑 性 很 强 ， 因 此 很 容易 解释 。 在 此 ， 我 们 特别 提出 几 心 : 
e 在 为 CPU 引入 定义 文件 和 定义 上 层 输入 和 输出 之 后 ， 各 个 信号 和 总 线 才 被 定义 。 
。 上 层 实例 化 了 之 前 讨论 的 所 有 模块 (它们 的 测试 平台 除外 )， 即 counter.v、state.v、 
stack.v、alu.v 和 ram.v。 计 数 器 在 这 个 设计 中 实际 上 用 了 三 次 ， 分 别 是 作为 程序 计数 器 、 
指令 计数 器 和 输出 缓冲 区 。 
通过 控制 信号 的 指定 将 不 同 的 总 线 和 端口 进行 连接 〈 例 如 ，i2dbpus 这 个 控制 信号 指定 数 
据 总 线 由 指令 寄存 器 中 带 符 号 扩展 的 低 12 位 来 驱动 ， 这 种 驱动 可 能 发 生存 PUSHI 指 
令 中 )。 
。 代码 的 主体 是 根据 当前 状态 来 执行 的 。 在 EXECA 状态 ， 操 作 就 是 根据 当前 指令 寄存 器 
中 的 指令 来 确定 的 (或 者 更 准确 地 说 ， 是 根据 指令 寄存 器 的 【15: 12] 位 一 一 这 些 位 确 
定 指令 的 实际 功能 ) 。 

TinyCPU ， 如 在 这 里 和 之 前 章节 所 定义 的 一 样 ， 是 一 个 能 够 在 FPGA 上 通过 顶层 设计 进行 组 
合 的 模块 ， 并 给 它 提供 了 一 个 时 钟 信和 号、 一 个 复位 信和 号 和 输入 /输出 的 端口 。 一 旦 CPU 开始 运行 
( 当 mn 信号 为 “1” 的 时 候 ) ， 它 会 执行 内 部 程序 直到 HALT 指令 被 读 取 或 者 系统 复位 。 

正如 所 写 的 代码 那样 ， 包 括 用 于 存储 运行 时 变量 和 程序 指令 的 易 失 性 存储 器 在 内 的 所 有 在 
储 都 已 在 其 内 部 定义 。 也 可 以 将 CPU 与 外 部 的 存储 器 进行 连接 。 由 于 程序 代码 为 内 部 定义 ， 新 
的 程序 必须 手动 输入 到 Verilog 源 文件 ram.v 中 ， 然 后 重新 编译 整个 CPU。 

当 使 用 FPGA 的 时 候 ， 新 程序 的 综合 需要 使 用 如 Altera 的 Quartus 开 或 者 Xilinx ISE 逻辑 设计 
工具 。 在 运行 前 ， 需 要 通过 程序 数据 线 将 所 输出 的 编程 文件 下 载 到 FPGA 中 。 整 个 周期 可 能 很 费 
时 ， 有 时 需要 超过 一 个 小 时 的 时 间 来 完成 一 个 复杂 的 设计 ， 虽 然 基础 的 TinyCPU 设计 只 需要 几 
分 钟 。 

相 比 之 下 ， 外 部 程序 存储 的 使 用 ， 使 得 TinyCPU 程序 代码 中 的 每 一 处 改变 ， 只 需要 在 存储 器 
中 重新 编程 即 可 ， 而 不 需要 重建 整个 Verilog 设计 。 

在 8.9 节 ， 我们 将 会 探讨 TinyCPU 的 编程 和 使 用 。 在 此 之 前 我 们 将 先 检查 整个 CPU 的 测试 
和 运行 。 
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8. 8 ”CPU 测试 及 运行 

到 目前 为 止 ， 我 们 已 经 从 体系 结构 元 素 (8.5 节 ) 、 程 序 运行 (8.6 节 ) 以 及 讲述 如 何 用 
Verilog 实现 (8.7 节 ) 等 几 个 方面 并 述 了 TinyCPU 的 设计 。 在 8.7 节 里 我 们 曾 说 过 使 用 测试 平台 
对 设计 进行 测试 的 重要 性 ， 因 此 ， 我 们 对 构成 TinyCPU 的 6 个 Verilog 模块 (tinycpu.v、state.v、 
stack.v 、ramy 、countery 以 及 aluv) 都 设计 了 一 个 小 而 基础 的 测试 平台 。 

我 们 至 今 还 没 讨论 过 如 何 使 用 测试 平台 对 系统 进行 测试 。 我 们 的 测试 将 在 模拟 层次 上 进行 ， 
而 不 会 在 FPGA 硬件 层次 上 进行 。 在 这 里 需要 说 明 的 是 ， 在 实际 的 工业 开发 环境 中 ， 这 些 代码 都 
要 被 部 署 到 FPGA 中 ， 因 此 不 仅 需要 进行 模拟 层次 上 的 测试 ， 也 需要 进行 FPGA 硬件 层次 上 的 测 
试 。Altera 和 Xilinx 都 提供 了 基于 JTAG 的 工具 ( 见 7.9.3 节 ) ， 使 得 对 来 自 运行 硬件 的 测试 向 量 
的 收集 和 插 人 成 为 方便 的 事情 。 在 编写 本 书 时 ， 这 些 工 具 分 别称 为 SignalTap/SignalTap II 和 Chip- 
Scope/ChipScope Pro。SignalTap I 可 以 通过 下 载 免 费 网 页 版 Quartus I 获得 (只 需 开 启 Talk- 
Back 一 一 它 通过 Quartus 软件 向 Altera 提供 有 关 软 件 使 用 的 信息 )。 在 之 前 没有 这 些 工具 的 时 候 ， 
最 常用 的 方法 是 从 FPGA 的 YO 管 脚 上 引出 导线 至 数字 存储 示波器 (DSO) 或 者 逻辑 分 析 仪 上 ， 
然后 将 这 些 输出 映射 到 所 需 测试 的 VHDL/Verilog 代码 的 信号 上 。 这 种 方法 的 劣势 在 于 ,测试 不 
同 的 信号 都 需要 重复 编译 。 

正如 上 文 所 说 的 ， 我 们 讨论 的 重点 是 在 模拟 层次 上 。 在 FFGA 上 运行 之 前 对 于 Verilog 至 少 
有 两 个 层次 的 模拟 。 第 一 个 是 功能 模拟 ， 它 评估 代码 的 基本 操作 和 逻辑 的 正确 性 。 第 二 个 是 时 序 
模拟 ， 它 考虑 测试 目标 FPGA2 上 各 条 导线 及 组 件 的 传输 延迟 。 第 一 种 模拟 得 到 周期 级 精确 的 结 
果 。 换 名 话说， 如 果 有 一 个 时 钟 用 于 系统 的 时 钟 同步 ,那么 这 个 设备 的 操作 就 会 按 周 期 进行 测 
试 ， 每 个 周期 的 评估 都 与 下 一 个 周期 相互 独立 。 如 果 设 计 中 带 有 组 合 逻 辑 ， 那 么 一 旦 输入 发 生 改 
变 ， 输 出 立即 发 生变 化 。 第 二 种 模拟 产生 的 结果 与 目标 FPGA 实现 的 结果 是 最 相似 的 。 组 合 逻辑 
的 输出 需要 消耗 一 定 的 传输 时 间 通 过 整个 逻辑 。 如 此 ， 在 某 个 时 钟 周 期 内 发 生 的 事件 也 许 在 下 
一 个 周期 时 钟 开始 前 不 能 完成 。 这 种 类 型 的 分 析 可 以 帮助 设计 人 员 对 设计 的 最 大 时 钟 速度 进行 
估计 。 可 以 通过 使 用 越 来 越 快 的 时 钟 进行 时 序 模拟 直到 系统 运行 失败 ， 也 可 以 采用 关键 路 径 分 
析 以 确定 最 慢 的 路 径 ， 然 后 设置 该 设计 能 够 支持 的 最 快 时 钟 。 

由 于 时 序 模拟 与 整个 设备 有 关 ， 因 此 我 们 在 此 只 对 功能 模拟 进行 讨论 。 功 能 模拟 要 比 时 序 
模拟 快 且 更 容易 进行 ， 并 可 以 使 用 各 种 不 同 的 工具 。 

我 们 在 此 需要 的 工具 为 一 个 用 于 Verilog 源 代码 的 编译 器 、 一 个 功能 模拟 工具 ， 以 及 一 种 显 
示 结 果 的 方法 (最 好 的 方法 是 波形 以 图 形 显示 )。 人 免费 下 载 的 网 页 版 Quartus I[ 和 ISE 都 支持 以 上 
两 种 模拟 (虽然 支持 某 些 特定 的 设备 ， 通 常 不 支持 最 新 的 设备 ) 。 如 果 能 够 获得 ModelSim， 那 将 
是 一 个 优秀 的 功能 模拟 工具 。 如 果 能 够 获得 特定 于 设备 的 时 序 库 的 话 ， 那 么 它 也 能 够 用 于 时 序 
模拟 。 附 录 对 Verilog 的 编译 、 模 拟 和 波形 视图 等 开源 工具 进行 了 介绍 。 


8. 9 编程 并 使 用 CPU 

Koji Nakano 教授 是 TinyCPU 的 发 明 人 ， 他 为 该 处 理 器 开发 了 一 个 汇编 器 和 一 个 C 语言 编译 
器 。 虽 然 编译 器 和 汇编 器 不 在 计算 机 体系 结构 研究 的 范围 内 ,但 是 它们 对 于 实际 设备 的 使 用 是 
必 不 可 少 的 ， 因 此 我 们 将 对 它们 进行 简要 讨论 。 但 首先 ,我们 先 讨论 为 TinyCPU 进行 手工 汇编 和 
编写 代码 的 过 程 。 








忽 目标 FPGA: 其 设备 名 称 、 库 以 及 速度 都 已 被 选中 来 实现 厂 件 设计 。 
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8.9.1 编写 TinyCPU 程序 


对 于 任何 一 位 要 为 新 设备 写 程序 的 编程 人 员 ， 首 先 要 做 的 一 件 事 就 是 了 解 这 个 设备 一 一 特 
别 是 设备 的 约束 和 其 内 部 结构 。 在 第 3 章 〈 主 要 是 3.3.4 节 ) 我 们 已 经 看 到 内 部 结构 是 如 何 影响 
它 的 指令 集 的 ， 并 最 终 决 定 了 该 设备 执行 某 一 操作 的 歼 率 。 

对 于 一 个 要 写 高 效 的 低级 代码 的 编程 人 员 来 说 ， 对 体系 结构 及 其 约束 的 了 解 很 重要 。 在 Ti- 
nyCPU 的 例子 中 ， 我 们 已 经 讨论 过 它 的 体系 结构 (8. 5.1 节 等 ) 和 它 的 指令 集 (8.6 节 ) 。 不 管 
体系 结构 的 灵活 性 有 多 大 ， 最 终 还 是 指令 集 限制 了 编程 人 员 能 够 拿 这 个 设备 干什么 。 

除 此 以 外 ，TinyCPU 的 编程 人 员 还 需要 记 住 只 有 一 个 输入 端口 (in) 和 一 个 输出 寄存 器 
(out) ， 一 个 能 够 进行 常用 逻辑 操作 和 乘法 运算 的 ALU。 所 有 的 程序 代码 和 内 存 存储 都 是 16 位 形 
式 的 ， 并 且 内 存 的 大 小 为 4096 字 。 任 何 常量 需要 使 用 PUSHI (用 于 任意 12 位 有 符号 整数 ) 进行 
加 载 或 存放 在 内 存 里 ， 并 可 以 通过 它们 的 标号 名 称 索 引 。 

最 重要 的 是 ，TinyCPU 是 一 个 堆栈 结构 机 器 。 现 有 的 8 个 堆栈 位 置 限制 了 不 涉及 内 存 的 计算 
不 能 超过 8 层 深 。 这 意味 着 所 有 的 操作 数 和 结果 都 是 16 位 的 (注意 这 也 包含 习 法 单元 ， 由 此 
MUL 只 能 将 8 位 有 符号 数 作为 操作 数 ) 。 显 然 ， 这 也 意味 着 计算 也 要 模型 化 为 堆栈 结构 〈 参 见 道 
波兰 表示 法 ，3. 3.5 节 ) ， 这 点 需要 事先 考虑 。 

作为 一 个 例子 ， 我 们 首先 编写 一 个 程序 ， 将 数据 从 输入 端口 读 人 ， 然 后 减 去 一 个 常量 ， 再 将 
结果 放 入 输出 寄存 嚣 。 我 们 假设 常数 已 加 载 在 内 存 上 并 以 “const” 命 名 。 

从 输入 端口 读 人 数据 并 不 复杂 : 浏览 前 面 表 8-1 所 示 的 TinyCPU 指令 集 ， 可 以 看 到 IN 指令 
用 于 从 输入 端口 读 入 数据 并 存放 在 堆栈 里 : 

IN 

为 了 对 其 做 减法 ， 我 们 还 需要 将 一 个 常量 装 入 堆栈 。 如 果 是 一 个 立即 数 常量 ， 我 们 可 以 使 用 
PUSHI， 但 此 时 常量 存放 在 内 存 中 ， 所 以 我 们 需要 从 内 存 取出 该 值 然后 将 它 压 人 堆栈 ， 应 该 使 用 
PUSH 

PUSH const 

接 下 来 ， 我 们 进行 减法 操作 : 

SUB 

它 将 从 堆栈 里 弹出 两 个 输入 操作 数 ， 执 行 减法 ， 然 后 把 结果 压 回 堆 栈 。 最 后 ， 我 们 可 以 将 结 
果 送 入 输出 寄存 器 : 

OUT 

注意 ， 在 这 个 简单 程序 中 没有 用 到 操作 数 ! 这 就 是 堆栈 结构 机 器 的 主要 特征 之 一 一 一 如 果 
没有 寄存 器 ， 我 们 也 不 需要 对 其 进行 指定 。 

除了 把 这 些 代码 放 在 一 块 之 外 ， 我 们 还 需要 一 个 存放 常量 的 地 方 。 整 个 程序 代码 如 程序 清 
单 8. 13 所 示 ， 其 中 我 们 将 常量 的 值 设 为 3。 

程序 清单 8. 13 subtract.asm 











IN 
PUSH cnst 


中 本 
© 
[el 
器 


cnst: 3 
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接 下 来 ,我 们 为 8.6 节 中 所 给 的 指令 集 (特别 是 表 8-1 和 表 8-2) 中 的 每 条 指令 确定 机 器 码 
(十 六 进 制 )。 例 如 ， 在 表 8-1 中 找到 IN 指令 ， 我 们 可 以 看 到 它 使 用 十 六 进 制 数 D000 表示 。 第 二 
条 指令 PUSH const 使 用 十 六 进 制 数 2000 + A 表示 ，A 是 常量 存放 的 地 址 。 在 这 个 例子 中 ， 我们 需 
要 将 标号 “const” 转换 为 一 个 地 址 一 一 可 以 通过 简单 计算 获得 这 个 地 址 。 该 标号 在 程序 清单 8. 13 
的 第 6 行 , 但 是 由 于 计算 机 地 址 是 从 0 开始 的 ， 所 以 这 个 常量 的 实际 地 址 为 5。 因 此 ， 这 条 指令 
的 十 六 进 制 编码 为 2005 。 

对 剩余 的 指令 重复 这 个 过 程 ， 我 们 最 终 得 到 如 程序 清单 8. 14 所 示 的 机 器 码 。 

程序 清单 8. 14 subtract.hex 








1 D000 \\ IN 

2 2005 AN PUSH cnst 
3 FOOL \\ SUB 

4 E000 \\ OUT 

5 0000 \\ HALT 

6 0003 \\ cnst: 3 





在 此 ， 只 有 那些 亲自 做 过 这 种 转换 工作 的 人 才 知 道 这 个 过 程 是 多 么 枯燥 乏味 ， 即 使 是 一 个 
很 简单 的 程序 (而且 还 很 容易 出 错 ) 。 这 就 是 为 什么 Nakano 教授 给 这 个 处 理 器 构建 了 一 个 汇编 
器 (以 及 一 个 简单 的 编译 器 ) 的 原因 ， 这 也 解释 了 为 什么 现在 没有 人 直接 写 机 器 码 。 我 们 将 在 
8.9.2 节 介绍 TinyCPU 的 编程 工具 ， 但 现在 更 重要 的 是 在 我 们 开始 使 用 便捷 方式 前 了 解 这 个 
过 程 。 

接 下 来 我 们 将 要 把 这 个 程序 使 用 正确 的 格式 插入 ram.v 中 。 我 们 可 以 通过 查看 8.7.5 节 中 的 
语法 格式 ， 然 后 删除 里 边 原 有 的 程序 并 将 我 们 的 减法 代码 插入 其 中 来 实现 。 如 程序 清单 8. 15 
所 示 。 

程序 清单 8. 15 ram_subtract.v 





module raml(clk, load, addr, d, dq);: 
parameter DWIDTH=16,AWIDTH=12,WORDS=4096; 


1 

2 

3 

4 input clk,1load; 

5 input [AWIDTH-1:0] addr; 
6 input [DWIDTH-1:0] GQ; 

7 output [DWIDTH-1:0] qa; 

8 reg [DWIDTH-1:0] a; 

9 reg [DWIDTH-1:0] mem [WORDS-1:0]; 





11 always @ (posedge clk) 
12 begin 


13 if(load) memladdr] <= G3; 
14 G <= memladar]; 

15 end 

16 


17 integer i; 

18 initiai begin 

19 for (i=0;i<WORDS;i=i+1) 

20 mem[i]=0; 

21 mem[12h000] = 16’'hD000; // IN 

22 mem[12'1h001] = 16’h2005; // PUSH cnst 
23 mem[12'h002] = 16’'hF001; // SUB 
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24 mem[12h003] = 16hE000; // OuT 

25 mem{[12’h004] = 16’h0000; // HALT 

26 mem[12'h005] = 16'n0003; // cnst: 3 
27 end 

28 


29 endmodule 


让 我 们 来 模拟 和 测试 这 段 代码 。 首 先 ， 我 们 需要 确保 我 们 的 测试 平台 构建 正确 。 在 这 个 例子 
中 ,我 们 将 数值 7 作为 常量 提供 给 输入 端口 ， 然 后 执行 减法 。 原 来 的 TinyCPU 测试 平台 被 修改 为 
如 程序 清单 8. 16 所 示 。 

程序 清单 8. 16 tinycpu_tb_subtract.v 











1 ‘timescale 1ns / 1ps 

2 module tinycpu.tb; 

3 

4 reg clk, reset, run; 

5 reg [15:0] in; 

6 wire [2:0] cs; 

7 wire [15:0] irout, qtop, dbus, out; 

8 wire [11:0] pcout, abus; 

9 

10 tinycpu tinycpu0(.clk(cilk), .reset{reset), .run(run), .inl(in), 
.CS{(cs), .pcout (pcout), .irout (irout), .qtopl(qtop), 
.abus (abus), .dbus (dbus), .out (out})); 

11 

12 initial begin 

13 clk=0; 

14 forever #50 clk = ~clk; 

15 end 

16 

17 

18 initial begin 

19 reset=0; run=0; in=3; 

20 #100 reset=1; run=1; 

21 #100 run=0; in=7; 

22 #12000 $finish; 

23 end 

24 

412 25 endmodule 











如 果 我 们 现在 要 模拟 这 段 代 码 ， 需 要 使 用 如 附录 E 中 给 出 的 方法 (Icams Verilog 和 GTK- 
wave ) ， 我 们 将 会 得 到 执行 时 的 波形 ， 如 图 8-11 所 示 。 

图 中 显示 输入 端口 得 到 常数 值 7。 根 据 运行 时 给 出 的 提示 信号 ， 指 令 0 至 指令 5 轮流 被 装 
载 (看 abus 的 值 ) 。qtop 显示 了 推 栈 顶 部 的 值 : 开始 为 0， 接 着 是 来 自 输入 端口 的 7， 然 后 是 
来 自 内 存 的 3， 最 后 是 减法 的 结果 4。 这 个 结果 最 后 被 送 入 输出 寄存 器 ， 如 图 中 光标 所 标示 的 
地 方 。 

显然 , 7 -3 =4 是 正确 的 。 然 而 ， 读 者 有 可 能 感觉 到 应 该 还 有 许多 更 简单 的 方法 来 实现 这 个 
计算 。 
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图 8-11 减法 例子 的 GTKwave 波形 观察 仪 的 截屏 ， 它 显示 了 模拟 中 一 些 重要 的 信和 号 


8. 9.2 TinyCPU 编程 工具 


在 8.9. 1 节 我 们 已 经 讨论 了 如 何 手工 编写 机 器 码 ， 然 后 将 它们 载 人 TinyCPU 并 进行 模拟 ， 读 
者 会 觉得 这 个 汇编 过 程 十 分 机 械 ， 需 要 (i) 确定 代码 中 标号 的 实际 地 址 ; (ii) 将 汇编 语言 转换 
为 十 六 进 制 机 器 码 ; (说 合并 所 有 操作 数 (如 将 常量 的 地 址 插入 到 PUSH 指令 中 合适 的 位 域 ) 。 

写 一 个 汇编 器 并 不 困难 。 实 际 上 ，Nakano 教授 所 做 的 只 是 写 了 一 个 汇编 器 和 一 个 简单 编译 
器 。 读 者 可 以 参考 他 的 几 篇 文章 3 以 及 他 的 网 站 来 获得 更 多 信息 。 

附录 给 出 了 汇编 器 的 整个 代码 。 它 是 一 个 Perl 程序 ,采用 二 次 (two-pass) 汇编 。 第 一 次 
扫描 输入 的 代码 ， 确 定 指令 的 地 址 以 及 代码 中 标号 的 地 址 。 第 二 次 则 将 汇编 语言 转换 成 十 六 进 
制 机 器 码 ， 并 将 第 一 次 扫描 获得 的 标号 地 址 值 插 入 正确 的 地 方 。 

这 个 工具 给 出 的 汇编 器 输出 还 需要 另外 一 个 辅助 应 用 程序 对 之 进行 格式 化 以 产生 一 个 能 够 
直接 插入 ram.v 里 的 输出 。 


8. 10 小结 


基于 先前 章节 ， 本 章 首先 构建 了 针对 可 编程 系统 (如 FPGA) 进行 微 处 理 器 设计 的 基础 。 分 
别 对 其 进行 了 讨论 ， 然 后 介绍 了 一 些 现成 的 软 核 ， 并 提 到 了 其 他 一 些 不 错 的 免费 开源 软 核 。 

主要 采用 在 本 书 中 介绍 的 一 些 概 念 ， 我 们 探讨 了 一 些 使 用 Verilog 构建 一 个 完整 的 可 运行 
CPU 所 需 的 技术 。 特 别 地 ， 我 们 重 现 了 TinyCPU 的 设计 ， 它 是 由 日 本 广岛 大 学 的 Koji Nakano 教 
授 开发 的 。TinyCPU 正如 它 的 名 字 一 样 是 一 个 很 小 但 完整 的 CPU。 它 这 种 基于 堆栈 的 处 理 器 可 以 
很 容易 地 在 FPGA 内 部 使 用 ， 并 运行 一 些 简单 程序 。 

本 章 中 我 们 首先 讨论 了 使 用 软 核 微 处 理 器 的 思想 ， 包 括 使 用 下 载 的 核 或 使 用 来 自 商 家 的 人 P 
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核 。 男 外 ， 我 们 也 参考 了 来 自 四 个 主要 FPGA 厂商 的 内 部 核 。 最 后 我 们 着 手 设计 一 个 全 定制 的 
CPU。 我 们 首先 给 出 了 CPU 设计 规格 说 明 ， 然 后 一 步 一 步 开发 这 个 体系 结构 。 接 着 ， 在 编写 束 
个 系统 前 我 们 构建 了 一 个 指令 集 ， 而 整个 系统 只 使 用 了 6 个 小 的 Verilog 模块 。 伴 随 着 这 些 过 程 ， 
我 们 还 为 这 个 CPU 的 每 一 个 部 分 开发 了 测试 平台 并 进行 测试 。 

最 后 ， 我 们 构建 了 以 TinyCPU 为 例 的 程序 ， 并 模拟 了 它 的 操作 。TinyCPU 是 一 个 完美 的 作 
名 : 它 是 一 个 简单 的 自制 CPU， 并 足够 可 视 和 开源 ， 使 得 我 们 可 以 观察 其 内 部 的 工作 情况 。 然 
而 ， 它 只 能 作为 一 个 简单 的 开始 : 读者 应 该 对 其 原始 代码 进行 扩展 、 修 改 、 重 写 、 改 进 和 实验 。 
415] 让 它 成 为 引领 我 们 进入 开发 新 一 代 专 用 定制 处 理 器 的 一 课 。 


8.1 现成 的 CPU 通常 可 以 比 在 最 快 的 FPCGA 上 实现 的 类 似 体 系 结构 CPU 拥有 更 快 的 时 钟 。 这 是 否 意味 着 
现成 方案 会 史 快 ? 解释 你 的 答案 。 
8.2 什么 是 软 硬 件 协 问 设计 ? 为 什么 这 种 方法 在 嵌 人 式 系统 开发 中 比 在 台式 PC 开发 中 更 重要 ? 
8.3 指出 软 硬 件 协同 于 发 的 步 又 。 评 估 哪 个 步骤 需要 对 系统 了 解 最 多 以 及 哪个 步骤 对 于 系统 正确 性 最 
重 旧 。 
8.4 在 你 的 设计 中 选择 现成 软 核 或 南 用 软 核 的 主要 优势 是 什么 ? 主要 劣势 是 什么 ? 
8.5 ”对 于 半导体 厂商 米 说 生产 少 世 人 寿命 长 的 产品 是 异常 困难 的 。 怎 样 使 用 软 核 去 帮助 这 些 生 产 商 ? 从 现 
有 的 市 场 化 CPL 转向 自 定 义 软 核 方 案 最 主要 的 前 期 成 本 是 什么 ? 
8.6 TinyCPU 是 侣 总 是 在 状态 FETCHA 之 后 跟着 状态 FETCHB? 为 什么 TinyCPU 需要 两 种 取 指 状态 ? (类 
于 FETCHA 和 FETCHB 参见 8.6.1.2 节 。) 
8.7 为 什么 TinyCPU 绯 栈 丰 gtop 输出 和 qnext 输出 ”能 在 只 有 qtop 输出 ? 
8.8 根据 4.1.1 节 所 给 的 定义 ，TinyCPU 能 省 实 现 为 单 总 线 、 双 总 线 或 三 总线 结构 ?如果 能 够 实现 ， 那 么 
它 的 指令 集 将 会 是 怎样 的 ? 
8.9 TinyCPU 的 PUSHT 各 PUSH 指令 有 什么 区 别 ? 为 什么 两 条 指令 都 需要 实现 ? 归纳 实现 这 两 条 指令 在 盔 
件 上 的 区 别 。 
扩展 和 升级 TinyCPU 
接 下 米 的 问题 假设 TinyCPU 使 用 Verilog 实现 ， 并 对 其 及 其 指令 集 、 工 作 方式 提出 各 种 升级 、 扩 
舟 和 调整 。 接 下 来 的 问题 都 建立 在 白 定义 软 核 计 算 及 这 些 系统 的 折 中 问题 上 。 
对 于 每 个 改变 ,都 要 与 一 个 新 的 TinyCPU 程序 〈 或 测试 程序 ) ， 并 且 对 每 个 新 的 代码 都 要 就 其 正 
确 性 以 及 对 现 有 代 妈 的 有 效 性 进行 测试 。 对 于 那些 拥有 完整 FPGA 开发 系统 且 能 够 在 其 上 实现 Ti- 
nyCPU 并 进行 模拟 的 读者 ， 还 应 该 考察 这 些 改变 在 实现 TinyCPU 的 开销 上 有 什么 不 同 ( 即 它 的 设备 内 
人 存 和 面积 资 源 贞 有 几 举 ) 。 
8. 10 扩展 TinyCPU 文 持 ， 使 其 文 持 循 环 右 和 循环 左 指令 〈(ROR 和 ROL) ， 它 们 在 实现 上 与 现 有 的 SHL 和 
SHR 指令 相似 。 
8.11 TinyCPU 能 处 理 16 位 数据 。 将 内 部 数据 通路 、 端 [、RAM 和 堆栈 升级 至 32 位 ， 需要 新 的 方法 ( 即 
新 指令 ) 将 好 数 装 入 堆栈 地 址 的 高 16 位 上 .。 然 而 ,通常 还 有 更 多 的 方法 能 够 实现 32 位 扩展 ， 所 
以 请 读者 想 出 自己 的 办 法 来 实现 32 位 数据 处 理 。 
8. 12 TinyCPU 只 有 一 个 输入 端口 和 一 个 输出 端口 ， 实 现 新 的 指令 将 输入 /输出 端口 增加 到 4 个。 
8. 13 向 TinyCPU 中 增加 中 断 支 持 〈 以 及 一 个 中 断 向 量 表 ) 。 
14 影子 寄存 器 (参见 5.6.3 节 ) 可 以 提高 中 断 服务 例 程 的 速度 。 在 问题 8. 13 的 基础 上 对 TinyCPU 实现 
影子 堆栈 。 这 种 扩展 是 否 有 必要 ? 
1$ 在 TinyCPU 上 实现 与 5.6. 1 人 类 似 的 基本 重复 指令 。 
16 内 芍 如 何 料 问题 8. 15 的 重 旬 指令 扩展 为 一 个 宫 全 的 零 开销 循环 。 
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通过 在 stack.v 上 实现 一 个 SIMD 输入 触发 机 制 将 堆栈 进行 扩展 ,使 堆栈 硕 部 增加 人 到 4 项 。 增 加 一 条 
新 指令 米 控 制 这 个 触发 机 制 。 在 另外 一 种 方式 中 ， 计 一 条 SIMD 指令 实现 月 动 出 栈 四 次 ， 并 在 每 次 


出 栈 后 自 增 ， 然 后 按 原 来 的 顺序 将 它们 压 回 堆栈 。 这 两 种 方式 蛙 种 于 快 ? 嘟 种 需要 最 多 的 FPCA 
资源 ? 


为 TinyCPU 实现 一 个 内 处 理 器 。 首 先 构 建 一 个 新 的 16 位 输出 端 fi 让: TinyCPU 能 够 向 其 写 数据 ， 和 -~ 
个 输入 端口 使 TinyCPU 能 够 从 共 上 读 人 数据 。 这 些 端口 与 协 处 焉 器 相连 ， 每 当 触发 时 ， 协 处 理 器 从 
TinyCPU 的 输出 端口 读 16 位 数据 并 将 数据 按 位 逆序 (即位 0 与 位 15 交换 ， 位 1 和 位 14 交换 等 ) ， 然 
后 输出 结 斥 输出 到 TinyCPU 的 输入 端 [1， 使 TinyCPU 能 够 读 取 。 

对 于 能 够 在 FPGA 上 实现 TinyCPU 的 读 考 ， 设 计 一 个 系统 包含 珊 个 能 够 并 行 的 处 理 器 。 然 后 在 两 个 
处 理 圳 上 实现 一 个 端口 和 寄存 虐 ， 使 得 两 个 处 理 器 能 够 于 相通 们 (这 与 问题 8. 18 的 协 处 理 器 接 后 设 
计 类 似 ) 。 

向 TinyCPU 引入 流水 线 并 说 明 它 至 少 在 菜 些 类 型 的 指令 上 能 够 提高 谷 吐 举 ( 注 意 最 好 能 够 在 FP- 
GA 设计 工具 上 实现 ， 内 为 它们 能 够 对 系统 的 最 长 路 径 进行 评估 ， 即 能 够 白 动 计算 设计 所 支持 的 最 大 
时 钟 速度 ) 。 
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本 来 





正如 题目 所 表达 的 ， 本 章 所 关注 的 是 计算 机 及 其 体系 结构 未 来 发 展 的 方向 。 正 如 我 们 在 之 
前 多 次 提 到 的 那样 ， 今 后 的 计算 重点 可 能 是 嵌 人 式 ， 但 新 出 现 的 议题 也 包括 环境 智能 〈 我 们 周 
围 都 是 计算 机 的 理念 ) 、 普 适 计算 和 云 计算 (类 似 于 分 布 式 ) 、 量 子 计算 机 、 生 物 计算 机 等 。 许 
多 支持 者 认为 对 于 并 行 计 算 来 讲 ， 这 是 一 个 迟到 的 复兴 。 

本 章 对 未 来 计算 与 主流 计算 的 不 同 进行 了 讨论 ， 包 括 未 来 计算 日 益 增 加 的 重要 性 及 潜在 的 
广泛 影响 力 。 有 些 所 谓 的 未 来 技术 是 那些 曾经 尝试 过 并 且 被 遗忘 的 ， 但 现在 我 们 需要 重新 审视 
它们 。 还 有 ， 像 量子 计算 机 ， 听 起 来 更 像 是 应 该 在 科幻 小 说 中 出 现 ， 而 不 是 在 计算 机 体系 结构 的 
教科 书 中 。 

无 论 未 来 怎样 ， 目 前 正在 研究 计算 机 体系 结构 的 你 ， 完 全 有 可 能 作为 一 分 子 构建 并 促成 这 
些 梦 想 的 实现 。 


9.1 单 比特 体系 结构 

在 4.2.2 节 , 我 们 设计 了 一 个 ALU， 由 几 个 独立 的 1 位 ALU 组 成 。 这 个 方法 很 常见 ( ARM 
内 核 曾 使 用 过 ) ， 称 为 位 片 (bit-slicing)。 实 际 上 ， 连 接 到 ALU 的 总 线 是 并 行 的 ， 因 而 对 每 一 位 
都 进行 独立 的 并 行 处 理 。 

除 此 之 外 ，ALU 也 能 以 串 行 的 方式 接收 这 些 位 ， 再 逐次 处 理 它们 并 串 行 地 输出 结果 。 事 实 
上 ， 串 行 CPU 就 是 所 有 处 理 都 通过 使 用 位 串 行 体系 结构 来 实现 。 

这 就 意味 着 片上 时 钟 速度 越 高 ， 需 要 的 片上 总 线 连接 就 越 少 。 然 而 ，CPU 并 不 总 是 这 
么 精简 的 ， 因 为 串 行 控制 器 要 安排 CPU 周围 的 所 有 串 行 操作 数 ， 这 就 使 得 时 序 电 路 很 复 
杂 。 一 个 较 大 的 优点 就 是 同一 个 CPU 在 不 改变 ALU 的 情况 下 能 处 理 不 同 的 字 长 (只 是 时 序 


419| 不 同 )。 





对 于 一 些 串 行 操作 ， 串 行 位 一 旦 被 送信 ALU 就 可 以 开始 进行 处 理 。 对 于 其 他 的 一 些 运 算 符 ， 
处 理 开 始 之 前 必须 将 所 有 位 送 人 ALU 中 。 
9.1.1 位 串 行 加 法 

作为 例子 ， 考 虑 两 个 位 串 行 数 字 的 加 法 。 这 两 个 数字 被 送 到 一 个 最 低 有 效 位 优先 的 加 法 器 
中 ， 按 位 相 加 ， 产 生 的 进位 反馈 给 随后 的 加 法 操作 。 

在 如 图 9-1 所 示 的 例子 中 ， 前 四 位 已 经 相 加 ， 结 果 已 经 产生 。 这 个 加 法 器 的 逻辑 并 不 复杂 ， 
实际 上 和 图 9-2 所 示 的 框图 有 些 类 似 。 

ADD 


1001 1100 0011 |0011 > 
0001 0100 0110 |0101 


1000 





进位 反馈 


图 9-1 两 个 申 行 二 进 制 数字 流 按 位 相 加 的 例子 。 每 一 个 按 位 
相 加 操作 的 进位 来 自 之 前 位 运算 的 进位 输出 


在 图 9-2 中 ,A 和 B 代表 两 个 比特 流 。 它 们 与 反馈 得 到 的 进位 相 加 产生 一 个 和 以 及 一 个 进 


位 。 最 低 有 效 位 (LSB) 控制 信号 用 来 禁止 任何 进 
位 反馈 ， 使 得 没有 进位 进入 最 低 有 效 位 的 位 置 
(按照 预期 ) 。 锁 存 器 延迟 加 法 器 的 输出 以 便 和 位 
时 钟 回 步 ， 并 且 延 迟 进位 以 便 为 下 一 个 位 加 法 操作 
做 准备 。 

使 用 这 种 机 制 在 输入 数据 之 间 不 需要 任何 间隔 ， 
只 要 最 低 有 效 位 控制 信号 能 防止 不 恰当 的 进位 从 一 
个 加 法 结果 传 至 下 一 个 。 它 的 好 处 在 于 只 要 LSB 控 
制 信号 的 时 序 划分 了 输入 字 ， 使 用 同一 硬件 就 能 够 
使 任何 字 长 的 数字 正确 相 加 ， 如 图 9-3 所 示 。 

累加 器 的 实现 也 同样 简单 ， 作 为 练习 留 给 读者 。 





: ， 位 时 钟 : 

| 和 A+B 
A 全 加 器 锁 存 器 : 
B EA 
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进位 输入 | 





图 9-2 ”位 串 行 加 法 单元 的 全 加 器 电路 








串 行 时 钟 
LSB 位 置 

2 | sw | 2 
LSB 位 置 

= | WF | 


图 9-3 与 位 时 钟 、LSB 位 置 标识 和 数据 字 相关 的 时 序 波 形 


9.1.2 位 串 行 减法 


考虑 9.1.1 节 的 加 法 器 ， 注 意 到 进位 从 开始 到 结束 被 自然 地 传递 。 因 为 减法 包含 借 位 而 不 是 
进位 ， 所 以 也 是 一 个 类 似 的 处 理 过 程 。 但 是 使 用 一 些小 技巧 可 能 会 使 处 理 过 程 更 加 简单 。 

回顾 第 2 章 中 2 的 补 码 变 换 相 对 容易 〈 尽 管 对 于 有 符号 数 不 那 么 容易 ) : 把 所 有 的 1 换 成 0， 
0 换 成 1， 然 后 在 最 低 有 效 位 加 一 个 1。 我 们 可 以 利用 A-B 等 价 于 A+(-B)， 因 此 可 以 简单 地 


执行 一 个 带 负 操作 数 的 加 法 。 

在 输入 信号 处 放 一 个 非 门 可 以 实现 位 串 行 输入 
的 所 有 位 反 转 。 在 最 低 有 效 位 加 一 个 1 就 是 确保 第 
一 个 进位 被 置 位 而 不 是 清空 〈 即 最 低 有 效 位 控制 
信号 使 进位 被 置 位 而 不 是 清空 ) 。 

位 串 行 减法 的 逻辑 电路 如 图 9-4 所 示 。 与 上 一 
节 中 的 加 法 电路 比较 ， 应 该 很 容易 对 系统 进行 转换 
使 得 加 法 或 是 减法 的 执行 取决 于 外 部 控制 信号 。 


9.1.3 ”位 串 行 逻辑 电路 和 处 理 
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图 9-4 为 了 完成 减法 B -A 而 经 过 修改 的 全 加 器 


考虑 到 由 一 个 全 加 器 和 一 个 锁 存 器 为 主要 构成 的 硬件 可 以 使 任意 长 度 的 字 进 行 加 减 运算 ， 
很 明显 ， 位 串 行 逻辑 电路 的 硬件 利用 率 是 很 高 的 。 位 串 行 逻 辑 电 路 能 以 快速 时 钟 工作 (尽管 锁 
存 器 之 间 有 非常 小 的 逻辑 进位 延迟 )， 但 是 缺点 是 不 论 时 钟 有 多 快 ， 每 个 长 度 为 n 位 的 字 运 算 都 


需要 n+1 个 时 钟 周期 来 完成 。 


串 行 逻 辑 电 路 在 FPGA 逻辑 电路 设计 方面 适 得 其 所 。 由 于 硬件 的 高 效 性 ， 可 以 并 行 地 让 几 个 
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处 理 流 同 时 进行 。 这 也 符合 FPGA 的 硬件 体系 结构 ，9. 1.1 节 和 9.1.2 节 中 描述 的 逻辑 电路 (或 
是 它们 的 可 选 版 本 ) 可 以 在 设备 的 单个 单元 中 实现 。 这 个 单元 可 能 被 称 为 逻辑 元 件 (LE) 、 逻 辑 
单元 (LC) 或 是 来 自 不 同 制造 商 的 类 似 命 名 ， 但 是 重点 是 每 个 单元 都 包含 一 个 查找 表 ， 该 查找 
表 有 执行 一 个 全 加 器 以 及 一 个 触发 器 〈 可 以 充当 锁 存 器 ) 的 功能 或 是 分 别 执行 全 加 器 和 触发 器 
的 功能 。 单 元 之 间 的 连接 比 单元 内 部 的 连接 慢 ， 其 速度 与 单元 之 间 的 距离 成 反比 。 

随 着 数字 宽度 的 增加 ， 在 FPGA 中 因 单 元 互 连 而 引起 的 延迟 会 变 得 严重 。 这 就 意味 着 大 约 
256 位 或 是 更 多 的 数字 相 加 时 ， 在 任何 时 钟 速率 下 进位 传输 问题 都 会 变 得 非常 困难 。 而 且 ， 目 前 
的 中 档 设 备 并 不 包含 足够 的 路 由 互 连 来 执行 这 样 的 功能 (附带 提 一 下 ， 这 个 功能 不 是 模 楼 两 可 
的 需求 ， 它 在 加 密 算法 中 是 一 个 常见 功能 ) 。 在 这 种 情况 下 ， 在 单个 单元 中 实现 位 串 行 操作 逻辑 
变 得 极 具 吸引 力 。 


9.2 超 长 指令 字体 系 结构 

超 长 指令 字 (Very- Long Instruction Word，VLIW) 体系 结构 通过 引 和 人 指令 级 并 行 (Instrue- 
tion- Level Parallelism，ILP) 来 使 CPU 变 得 更 快 ， 即 把 高 效 指令 排序 的 任务 从 处 理 器 转移 到 编译 
器 。 这 个 排序 包括 指令 分 组 ， 以 便 并 行 地 执行 指令 。 

正如 我 们 之 前 提 到 的 ，VLIW 有 时 也 被 称 为 显 式 并 行 指令 计算 《( Explicitly Parallel Instmuetion 
Computing, EPIC)., 


9.2.1 VLIW 的 基本 原理 


并 行 执行 可 以 提高 性 能 。 这 就 好 比 并 行 总 线 在 单一 时 钟 周期 内 传输 若干 位 数据 ， 比 串 行 总 
线 传输 速率 快 ， 在 一 个 周期 传输 若干 位 数据 ， 将 导致 需要 更 大 的 指令 集 带 宽 和 额外 硬件 资源 的 
权衡 。 处 理 右 制造 商 已 经 尝试 逐年 增加 时 钟 速度 ,得 到 了 几 十 年 不 间断 的 处 理性 能 提升 。 然 而 ， 
VLIW 允许 时 钟 速度 保持 不 变 ， 但 是 每 个 时 钟 周 期 执行 的 操作 数量 增加 了 ， 这 样 也 可 以 显著 提高 
整体 性 能 。 我 们 将 在 9. 2. 2 节 讨 论 这 个 方法 的 一 些 不 足 ， 但 是 我 们 先 来 思考 一 下 它 的 基本 原理 和 
优点 。 

尽管 以 并 行 方式 执行 运算 不 是 一 个 新 的 想法 ， 但 是 直到 20 世纪 80 年 代 后 期 VYLIW 作为 一 个 
概念 才 出 现在 TI 的 基于 多 媒体 的 DSP 处 理 器 中 ， 使 得 许多 公司 都 生产 了 高 速 的 现代 处 理 器 ， 比 
如 TI、Philips (最 著名 的 是 Tri- Media 系列 ) 和 Mitsubishi ( 始 于 V30 处 理 右 )。 尽 管 起 步 阶段 相 
对 缓慢 ， 但 是 随 着 时 间 的 推移 ，VLIW 很 有 可 能 成 为 主流 的 处 理 器 技术 ， 因 为 它 打破 了 处 理 器 性 
能 与 时 钟 速度 的 紧密 关系 。VLIW 对 于 多 媒体 而 言 是 个 好 的 解决 方案 ， 尤 其 是 流 式 的 音频 和 视 
频 ， 而 这 类 信息 在 处 理 器 系统 中 的 占有 量 在 不 断 增加 。Intel 已 经 采纳 了 VLIW 体系 结构 ， 尽 管 典 
型 的 营销 方式 称 它 为 EPIC。 它 还 广泛 应 用 于 IA-64 体系 结构 的 机 器 上 。 

VLIW 是 RISC 计算 机 理论 在 并 行 方向 上 的 一 个 扩展 。 它 有 RISC 固有 的 特点 ， 单 个 子 指令 是 
简单 而 规则 的 ， 通 常 在 一 个 周期 内 执行 。 不 同 的 RISC 类 型 的 子 指令 被 编译 器 交 双 起 来 放 入 一 个 
长 指令 字 中 ， 使 用 下 列 部 件 并 行 执行 : 

。 独立 的 CPU 功能 单元 (例如 ADSP2181 ) 。 

。 功能 单元 的 多 个 副本 〈 若 干 数字 信号 处 理 器 和 之 后 的 奔腾 处 理 亏 ) 。 

。 流水 线 功能 单元 。 

因为 VLIW 和 超标 量 体 系 结构 〈 见 5.4 节 ) 都 涉及 多 个 功能 单元 以 及 处 理 器 内 部 的 并 行 ， 这 
就 出 现 了 一 个 问题 ，VLIW 和 超标 量 体 系 结构 之 间 有 什么 区 别 ? 它们 在 很 多 方面 存在 差异 ， 但 最 
重要 的 是 超标 量 体 系 结构 取 指 单元 的 取 指 速度 高 于 处 理 单元 的 处 理 速 度 ， 指 令 需 要 等 竺 被 处 理 。 
这 是 因为 超标 量 体 系 结构 中 处 理 器 在 运行 时 负责 安排 每 个 指令 单元 做 什么 ， 指 令 被 送 入 哪个 并 


























行 执行 单元 。 相 比 之 下 ，VLIW 依靠 编译 器 来 完成 时 序 安排 。 编 译 器 指示 每 个 执行 单元 每 一 时 刻 
做 什么 ， 从 哪里 获取 数据 ， 数 据 写 回 到 哪里 。 并 行 指令 以 一 个 规律 的 速度 被 取出 、 执 行 ， 处 理 器 
指令 的 处 理 硬件 没有 超标 量 体 系 结构 方式 下 复杂 ， 因 此 可 能 运行 得 更 快 。 杠 9.1 给 出 了 一 个 
VLIW 硬件 的 例子 。 
二 :区 四 VLIW 硬件 的 例子 

思考 这 个 例子 的 代码 ， 代 码 来 自 “VLIW Architecture For Media Processing” K. Konstantinides, JEEE 
Sienal Processing Magazine, March 1998 (© 1998TERRE ) 


标准 处 理 器 VLIW 处 理 器 
同期 操作 同期 操作 
1 add t3 = t1, t2 1 adGQ t3 = ti1,t2 
2 store [addr0] = t3 add t5 = p2,p10 
3 fmul f6 = f7,f14 add tl = p2,p7 
4 .和 千 待 ... fmul f6 = £7,f14 
5 … 等 待 … 2 add t4 = tl1,t5 
6 fmul f7 = £7,E£15 fmul f7 = f£7,f15 
7 .等 待 ... store [addr0] = t3 
8 等待.… 3 store [addr1l] = t4 
9 adqd tl = p2,p7 
10 add t5 = p2,p10 
11 store [addr1] = t4 


这 个 例子 使 用 伪 码 表示 了 普通 处 理 器 ( 左 半 部 分 ) 如 何 执行 一 些 加 法 、 浮 点 数 乘法 以 及 存储 操作 。 执 
行 这 些 操作 需要 11 个 指令 周期 ， 包 括 等 待 乘法 操作 完成 所 需 的 时 间 。 右 半 部 分 的 VLIW 处 理 器 带 有 多 个 可 
并 行 执行 的 功能 部 件 ， 将 几 条 指令 装 入 单个 字 中 ， 执 行 相 同 操作 只 需 3 个 指令 周期 一 一 没有 任何 理由 认为 
这 些 指令 周期 比 非 VLIW 处 理 器 慢 。 

再 考虑 一 分 钟 ， 对 于 右 半 部 分 的 VLIW 处 理 器 需要 哪些 并 行 硬 件 支持 ， 这 个 问题 在 9.2.1 节 中 作为 
VLIW 基本 理论 的 一 部 分 被 探讨 过 。 

框 9. 1 所 提供 的 例子 中 ，VLIW 编译 器 输出 如 下 所 示 ， 



































| | ALUL ALU2 | ALU3 EPU1 取 数 - 存 数 
| Instmction 1 ADD ADD ADD FMUL NOP 
Instruction 2 ADD NOP NOP FMUL STORE 
- Instmuction 3 NOP 1 NOP NOP NOP 二 STORE 423 














以 这 个 例子 为 例 ， 一 个 超标 量 机 器 将 要 取出 8 条 顺序 指令 (忽略 若干 NOP) 。 它 们 能 够 并 行 
到 何 种 程度 取决 于 硬件 的 灵活 性 和 系统 的 当前 状态 。 

VLIW 指令 通常 是 1024 位 长 ， 直 接 控制 多 个 硬件 单元 ,例如 16 个 ALU、4 个 FPU 和 4 个 分 
支 单 元 。 
9. 2. 2 ”VLIW 的 难题 


在 之 前 内 容 的 讨论 中 已 经 显示 出 VLIW 的 硬件 比 等 价 的 超标 量 机 器 要 更 规范 和 简化 ， 但 是 增 
加 了 编译 器 的 复杂 性 。 
为 了 使 VLIW 机 器 能 够 有 效 编译 ， 编 译 器 不 得 不 考虑 分 离 数据 流 一 在 用 户 程 序 中 重新 安排 





指令 顺序 来 提高 指令 的 吞吐 量 ， 注 意 先前 的 指令 结果 会 影响 到 之 后 的 指令 。 换 句 话 说 ， 编 译 器 要 [4 











尤其 注意 避免 流水 线 冒 险 (如 在 5.2 节 中 提 到 的 情况 ) 。 
下 面 是 其 他 一 些 与 VLIW 代码 有 关 的 潜在 问题 : 
。 糟糕 的 代码 密度 一 一 有 时 它 使 得 程序 没 办 法 实现 完全 并 行 ， 在 这 种 情况 下 VLIW 代码 使 
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用 很 多 NOP“ 填 充 ” 指 令 字 。 
e 而 要 复杂 的 编译 器 一 一 这 完全 是 把 困难 从 硬件 领域 转移 到 了 软件 领域 。 
。 而 要 高 带宽 内 存 一 一 平均 来 说 ， 一 个 VLIW 处 理 器 比 其 他 处 理 器 〈 例 如 超标 量 ) 需要 更 
多 的 指令 带宽 ， 填 充 额 外 的 NOP 加 剧 了 这 个 现象 。 指 令 存 储 器 通常 有 64 位 的 、128 位 的 
或 是 256 位 的 。 这 意味 着 需要 更 多 的 内 存 芯片 ， 需 要 更 多 的 印 制 电路 板 (PCB) 空间 来 
布置 总 线 ， 需 要 更 多 的 引 脚 给 处 理 器 IC。 
。 VLIW 使 用 汇编 语言 编码 很 难 一 一 使 用 高 级 语言 (HLL) 是 使 用 VLIW 处 理 器 的 一 个 重要 
先决 条 件 。 
为 什么 YLIW 不 能 广泛 用 于 个 人 计算 机 体系 结构 系统 (其 中 向 后 兼容 性 是 必需 的 ) ， 编 译 器 
的 复杂 度 问题 是 一 个 原因 。 如 果 采 用 VLIW ， 编 译 器 将 需要 更 加 智能 的 版 本 -目标 代码 会 发 生 
改变 ， 现 有 的 低层 次 工具 需要 被 替换 。 相 比 之 下 ， 超标 其 技术 与 遗留 代码 是 完全 兼容 的 。 它 们 需 
要 更 加 复杂 的 指令 处 理 硬 件 ， 但 是 编译 器 依然 是 简单 的 。 
像 Mitsubishi 和 Philips 这 些 公 司 已 经 设计 出 没有 遗留 代码 问题 的 全 新 结 必 ， 在 采用 VLIW 方 
面 已 经 取得 了 - 些 初 步 的 成 功 。 


9. 3 并行 与 大 规模 并 行 计算 机 

随 着 CPU 或 核心 变 得 越 来 越 小 ， 以 及 以 太 网 等 方式 使 互联 越 来 越 方便 ， 将 计算 机 集聚 成 群 
以 便 相 互 合作 变 得 越 来 越 容易 。 抛 开 为 这 类 系统 开发 高 效 的 软件 不 提 ， 单 单 从 硬件 的 角度 来 看 ， 
只 需 简 单 地 将 现成 的 PC 放 在 一 起 就 可 以 组 成 一 个 计算 机 集群 。 

在 5.8 节 中 我 们 曾 指出 ， 在 计算 机 系统 中 存在 各 种 层次 的 并 行 ， 并 且 不 同 种 类 的 并 行 也 符合 
我 们 在 该 章 提 出 的 松 耦 合 与 紧 耦 合 系统 的 区 别 。 在 本 章 我 们 将 重点 关注 最 高 层次 的 并 行 即 机 器 
级 并 行 。 

对 于 由 多 个 松散 耦合 任务 组 成 的 计算 问题 (例如 一 组 用 于 执行 困难 而 复杂 功能 的 代码 ， 并 
且 它 们 之 间 只 能 用 较 低 的 带宽 进行 通信 )， 并 行 执行 每 个 任务 可 以 加 快 整体 的 完成 时 间 。 

还 有 另 一 种 情况 ， 当 系统 中 的 任务 和 披 此 之 间 需 要 频繁 通信 或 者 使 用 较 大 的 带宽 时 ， 由 于 CPU 
之 闻 的 通信 存在 瓶 须 ， 因 此 并 行 执行 并 不 能 加 快 整 体 的 执行 速度 。 然 而 ， 当 系统 中 存在 足够 多 可 
以 并 行 执行 的 任务 时 ， 并 行 处 理 可 以 将 整个 系统 的 处 理 进程 在 一 段 时 间 内 向 前 推进 。 

在 大 型 并 行 处 理 系统 中 ， 任 务 在 传统 意义 上 都 是 在 独立 的 CPU 上 执行 。 这 里 所 指 的 独立 
CPU 可 以 是 一 组 单独 的 CPU 或 者 PC 、 机 架 服 务 器 或 刀片 服务 器 。 我 们 还 可 以 将 该 观点 扩展 到 集 
群 与 集群 之 间 ， 但 是 这 已 经 超过 了 计算 机 体系 结构 的 领域 ， 最 好 放 在 有 关 并 行 与 分 布 式 计算 的 
教科 书 中 讨论 。 

本 章 中 ,我 们 首先 会 从 普 适 计算 机 的 观点 讨论 这 一 问题 ， 然 后 将 该 观点 特 化 到 艇 人 式 系 
统 中 。 


9. 3. 1 大 型 计算 机 集群 


我 们 接触 最 多 的 关于 计算 资源 共享 的 概念 是 普 送 计算 (我 们 大 多 数 人 身边 的 计算 机 设备 部 
能 够 以 这 种 方法 协同 工作 ) 。 在 协同 提供 服务 时 也 被 叫做 环境 智能 (ambient intelligence ) ， 最 近 
也 被 称 作 随处 (everywhere) 计算 。 

云 计 算 (cloud computing) 的 概念 更 加 贴近 实际 ， 它 是 指 多 个 分 布 式 计算 机 彼此 通过 某 种 方 
式 互联 (通常 是 通过 因特网 ) 来 协同 完成 一 项 处 理 任 务 。 云 计算 的 云端 一 直 在 发 生 着 变化 ， 其 
中 的 计算 机 会 不 断 地 加 入 和 离开 云 ， 但 整体 上 的 计算 服务 不 会 停止 (至 少 应 该 如 此 )。 有 时 需要 
使 用 虚拟 化 (virtualisation) 技术 来 使 云端 彼此 连接 的 不 同体 系 结构 的 计算 机 彼此 看 起 来 有 相同 














的 结构 。 因 此 实际 上 是 这 些 虚拟 化 的 主机 形成 了 集群 。 这 种 云 的 比喻 来 自 以 图 形 描述 因特网 时 
往往 采用 云 的 形状 。 这 种 类 型 的 设计 被 更 形式 化 地 称 为 网 格 计算 (grid computing) 。 在 这 种 形式 
下 ,集群 中 相互 连接 的 机 器 是 分 布 式 的 ， 其 至 可 以 像 云 计算 一 样 ， 是 人 们 办 公 桌 上 的 PC 机 。 网 
格 的 比喻 来 源 于 能 源 网 的 思想 ， 在 能 源 网 中 生产 者 与 消费 者 彼此 互联 来 达到 让 资源 共享 和 平衡 
负载 的 作用 。 

许多 拥有 巨大 云端 或 网 格 的 公司 ， 会 销售 这 些 系 统 上 的 计算 时 间 ， 通 常 以 CPU 时 间或 类 似 
的 概念 来 定价 。 采 用 这 种 方案 是 因为 需要 保证 这 些 服务 可 以 获取 利润 ， 以 维持 集群 计算 服务 的 
建立 和 运行 。 一 些 提供 此 类 服务 的 服务 器 区 ( server farm) 占 地 其 巨大 ， 其 大 小 甚至 可 能 超过 一 
个 足球 场 ; 而 另外 一 些 则 占 地 较 小 且 更 具 美 感 ， 比 如 在 1.4 节 中 提 到 的 位 于 巴塞罗那 的 超级 计算 
机 MareNostrum 。 


9. 3. 2 ”小 型 计算 机 集群 


将 并 行 计算 与 胖 入 式 系统 结合 在 一 起 的 思想 甚至 是 在 十 年 前 也 是 不 可 想象 的 。 然 而 ,现在 
这 两 个 领域 的 交替 越 来 越 多 。 

本 节 将 主要 从 两 个 方面 讨论 有 关 椒 入 式 系 统 中 大 规模 并 行 化 的 问题 。 其 一 是 咎 入 式 ( 通 常 
指 便携 式 ) 系统 将 它们 的 计算 任务 放 到 固定 的 集中 式 计 算 机 上 进行 ; 男 -- 点 与 其 正好 相反 ， 是 
集中 式 计算 机 由 于 并 行 处 理 部 件 的 做 人 化 而 变 得 更 加 便携 。 

9. 3.2. 1 从 嵌入 式 系统 中 解放 计算 资源 

首先 ， 普 适 计算 指 的 是 计算 无 处 不 在 并 且 彼 此 相连 。 假 设 我 们 周围 充满 了 始终 工作 的 计算 
资源 ， 我 们 可 以 在 需要 的 时 候 使 用 它们 。 现 在 的 观点 认为 ， 比 起 在 嵌入 式 系 统 中 设计 高 功 耗 的 高 
性 能 处 理 模块 ， 不 如 为 其 添加 无 线 传输 模块 ， 即 让 计算 任务 在 功能 强大 的 固定 的 计算 机 上 执行 ， 
而 将 结果 无 线 传递 给 说 入 式 设备 。 拿 一 个 便携 式 的 媒体 播放 器 来 说 ， 它 包含 了 显示 和 音频 硬件 ， 
而 真正 播放 的 资源 则 在 其 他 地 方 存储 和 处 理 ， 之 后 只 是 将 结果 简单 地 传递 给 播放 器 。 

这 也 是 远程 处 理 一 个 非常 吸引 人 的 特点 。 它 将 极 大 程度 地 解决 便携 式 系统 的 能 源 局 限 性 (电池 
技术 的 发 展 速 度 远 远 落后 于 处 理 占 性 能 增长 的 速度 )。 然 而 ， 目 前 能 够 可 靠 、 低 能 耗 传输 的 无 线 技 
术 还 很 匮乏 。 男 外 ， 值 得 我 们 注意 的 是 ， 单 单 就 那些 有 潜力 提供 高 质量 无 线 链 路 的 技术 而 言 ， 它 们 
本 和 里 就 非常 复杂 而 且 计 算 其 大 (在 很 多 情况 下 ， 甚 至 超过 了 便携 式 设备 本 身 需 要 的 计算 量 )。 

毫 无 疑问 ， 现 在 有 很 多 令 人 期 待 的 关于 解放 甬 人 式 系统 计算 资源 的 例子 。 然 而 ， 由 于 受到 成 
本 、 可 靠 性 以 及 可 用 性 的 制约 ， 该 方法 目前 只 能 应 用 于 小 型 项 目 ， 移 动 典 型 行业 中 的 现 有 连接 模 
式 除 外 。 

嵌入 式 系统 大 规模 并 行 化 的 另 一 个 方向 ， 是 在 圣人 式 系统 中 设置 并 行 处 理 单元 ， 这 已 经 在 
实际 中 有 所 应 用 。 我 们 在 5. 8. 1 节 中 讨论 了 双核 ARM946， 并 且 我 们 可 以 在 树 入 式 FPGA 设计 中 
找到 很 多 关于 多 核 的 设计 。 然 而 ， 真 正在 入 式 集群 的 例子 还 是 非常 有 限 的 ， 不 过 在 不 久 的 将 来 肯 
定 会 越 来 越 多 。 接 下 来 我 们 讨论 最 早 的 一 种 嵌入 式 集群 ， 并 行 处 理 单元 (PPU ) 。 

9. 3. 2.2 ”并行 处 理 单元 

并 行 处 理 单 元 (Parallel Processing Unit，PPU ) 用 来 为 微型 卫星 ( 指 重量 在 100kg 以 下 的 卫 
星 ) 提供 高 度 可 靠 的 计算 服务 。 这 种 卫星 用 来 在 距 地 球 500km 的 轨道 上 获取 画面 ， 对 之 进行 处 
理 并 传送 回 地 球 。 

从 7. 10 节 的 介绍 中 我 们 知道 宇宙 中 存在 着 干扰 电信 号 的 宇宙 辐射 ， 因 此 大 多 数 卫 星 设计 者 
们 会 选择 耐 辐射 或 者 能 容忍 辐射 的 CPU。 不 幸 的 是 ， 由 于 制造 、 测 试 、 加 工 工艺 的 限制 ， 使 得 这 
类 CPU 的 制作 成 本 高 、 制 造 困难 、 耗 能 大 且 速 度 慢 。 大 部 分 微型 卫星 搭载 8086 系列 的 处 理 髓 ， 
这 使 得 它们 的 处 理 速度 很 少 能 超过 10MIPS。 但 即便 如 此 ， 卫 星 设 计 者 们 仍然 十 分 保守 (虽然 有 
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很 好 的 理由 ， 但 他 们 也 该 冒险 尝试 花费 上 百 万 美元 来 研究 一 种 板 上 计算 机 ) ， 而 且 他 们 基本 上 将 
处 理 器 降 频 到 出 三 设计 的 一 半 使 用 。 

由 于 如 此 有 限 的 处 理 能 力 ， 毫 无 咯 问 卫星 不 在 自身 内 部 进行 数据 处 理 : 大 多 数 只 是 简单 地 
捕获 信息 并 传输 给 地 面 计 算 机 处 理 。 这 种 做 法 明显 与 将 更 多 的 计算 任务 放 在 移动 端 处 理 的 趋势 
相 违 背 。 本 文 并 不 是 为 了 讨论 这 些 做 法 的 好 坏 ， 只 是 想 说 明 逐 步 采 用 商用 现成 〈commercial off- 
the-shelf，CTOS) CPU 改进 卫星 板 上 计算 机 能 力 的 趋势 。 

PPU 就 是 使 用 这 种 方法 。 它 基本 上 是 基于 Intel 公司 的 StongARM (SA1110 系列 CPU， 遗 居 
的 是 该 项 目 已 被 Intel 终止 ) 设计 ， 该 芯片 拥有 200MHz 的 频率 和 两 块 可 容忍 贺 射 的 现场 可 编程 
门 阵列 (FPCA) 。 由 于 COTS 处 理 器 在 宇宙 空间 的 生命 周期 很 短 ， 因 此 在 PPU 中 实际 上 有 20 个 
独立 的 CPU， 并 且 系 统 被 设计 成 可 以 适应 随 着 使 用 时 间 增 加 而 逐渐 出 现 的 CPU 故障 问题 。 基 于 
现在 已 公开 的 辐射 容忍 信息 ，PPU 在 其 3 年 的 生命 周期 中 被 设计 成 有 足够 多 的 CPU 资源 来 支持 
它 完 成 相应 的 任务 。 

PPU 的 结构 如 图 9-5 所 示 。 从 中 我 们 可 以 发 现 两 块 Actel 公司 的 AX1000 FPGA 分 别 连接 10 
个 处 理 节点 (PN) ， 每 个 PN 通过 一 条 并 行 总 线 与 FPGA 相连 ， 该 总 线 的 作用 会 在 稍 后 介绍 。 在 
FPGA 中 一 条 分 时 全 局 底板 (time- slotted global backplane，TCB ) 总 线 会 像 令 牌 系统 一 样 向 各 个 
节点 发 送 消 息 和 数据 。 每 个 PN 都 有 专 有 的 TGB 节点 ， 外 部 链 路 、 内 部 可 配置 处 理 模 块 (PM )、 
状态 寄存 器 (SR) 也 是 如 此 。 外 部 链 路 主要 是 用 于 连接 固态 记录 器 、 大 容量 闪存 阵列 以 及 由 
C515C 控制 器 控制 的 CAN 总 线 。 其 中 CAN 总 线 用 于 与 PPU 的 信息 交互 。 两 块 FPGA 芯片 通过 低 
电压 差分 信号 (LVDS ， 参 见 6.3.2 节 ) 在 TGB 的 连通 处 相互 连接 ， 此 外 ，LVDS 还 在 固态 记录 
器 的 连接 中 使 用 《并 且 顺 带 连 接 摄像 头 模块 以 及 数据 高 速 下 载 射频 模块 ) ， 该 固态 记录 器 用 于 快 
速 数据 交互 。 

PN 的 控制 代码 存储 在 闪存 中 ， 在 每 一 个 FPGA 中 都 有 三 份 相同 的 副本 以 三 重 元 余 的 方式 存 
储 ( 详 见 7.10 节 )。 

整个 设计 贯彻 了 “以 宛 余 为 代价 获取 可 靠 性 ”的 思想 ， 并 在 一 开始 就 将 可 靠 性 考虑 在 内 。 
基于 可 靠 性 的 设计 主要 有 : 

。 PN 的 多 个 副本 一 一 由 于 有 大 量 的 PN， 因 此 系统 能 在 其 中 一 些 PN 出 现 故 障 的 情况 下 继续 

正常 工作 。 

e 独立 总 线 一 一 如 果 所 有 PN 共享 一 条 公共 总 线 ， 那么 它们 的 地 址 或 数据 总 线 管 脚 很 可 能 

由 于 宇宙 射线 的 干扰 而 产生 错误 ， 出 现 电 压 过 高 或 过 低 的 状况 。 这 样 可 能 会 导致 连接 在 
一 条 共享 总 线 上 的 所 有 设备 都 无 法 正常 通信 。 因 此， 每 个 PN 与 FPGA 之 间 都 有 独立 的 并 
行 总 线 。 一 个 PN“ 死 掉 ” 并 不 会 影响 其 他 PN 的 正常 工作 。 

。 分 布 式 存储 一 一 类 似 地 ， 共 享 存储 的 故障 会 影响 所 有 连接 的 处 理 器 ， 因 此 该 系统 除了 共 

享 的 固态 记录 器 以 外 不 使 用 任何 共享 存储 。 
。 三 重 元 余 控 制 代码 一 一 每 个 FPGA 包含 3 块 内 存 ， 这 使 得 FPGA 可 以 在 控制 代码 的 每 个 
字 上 进行 按 位 多 数 票 决 。 

。 FPGA 之 间 的 两 条 链 路 一 一 如 果 一 条 LVDS 链 路 出 现 故 障 ， 另 一 条 仍然 可 以 正常 工作 。 

。 两 条 固态 记录 器 链 路 一 一 类 似 地 ， 如 果 一 条 LVDS 链 路 出 现 故 障 ， 另 一 条 仍然 可 以 正常 

工作 。 

。 两 条 CAN 总 线 一 一 再 一 次 ， 这 种 机 制 在 一 条 总 线 发 生 故 障 时 为 其 提供 后 备 。 

e。 TGB 总 线 节 点 一 一 非常 简单 的 错误 容忍 单元 ， 用 来 检测 所 连接 的 设备 是 否 依然 能 够 工 

作 ， 除 此 之 外 ， 它 们 不 能 阻止 TGB 上 的 通信 。 
。 TGB 数据 包 一 一 包 的 源 地 址 、 目 的 地 址 和 数据 域 都 有 奇偶 校 验 保护 。 




















。 TGB 总 线 回 路 一 一 TGB 回路 窗 关 了 32 个 节点 ， 每 个 FPGA 各 占 一 半 。 在 一 些 独立 节点 发 生 
故障 的 情况 下 ， 保 证 其 他 节点 不 受 影响 。 当 FPGA 之 间 的 链 路 发 生 故 障 时 ， 每 一 边 的 TCGB 
总 线 会 检测 到 该 故障 、“ 修 复 ” 这 个 破坏 并 且 能 够 使 各 自 剩余 的 部 分 不 受 影响 地 继续 工作 。 

。 双 FPGA 一 一 保证 在 其 中 之 一 出 现 故 障 的 情况 下 ，PPU 仍然 能 够 工作 。 由 于 能 容忍 辐射 
的 FPGA 的 可 靠 性 远 远 高 于 SA1110， 因 此 我 们 不 需要 像 PN 那样 为 其 准备 20 个 备份 ， 取 
而 代 之 ， 只 需 两 个 FPGA 即 可 。 
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图 9-5 并 行 处 理 单元 (PPU) 框图， 包括 了 20 个 处 理 节 点 (PN)， 每 一 个 都 包含 一 个 SA1110 
CPU 和 64MB 的 本 地 存储 单元 ， 并 且 通 过 专 有 总 线 与 Actel 的 AX1000 FPGA 相连 。 两 鼎 
FPCA 中 的 每 一 块 控制 10 个 PN 并 旦 与 一 个 固态 记录 器 和 一 条 CAN 总 线 相连 。 两 块 FP- 
GA 通过 两 条 双向 低 电压 差分 信号 (LVDS) 链 路 相互 连接 。 一 条 分 时 全 局 底板 总 线 用 于 
在 PN 、 外 部 链 路 、 内 部 可 配置 处 理 模块 (PM) 和 状态 寄存 器 (SR)〉 之 问 传送 数据 


虽然 PPU 具有 故障 容忍 性 ， 但 它 还 只 是 传统 类 型 的 并 行 处 理 器 。 每 一 个 PN 能 够 独立 工作 并 
且 能 够 与 其 周围 的 节点 通信 (通过 TGB)。 计 算 机 系统 中 存在 一 种 机 制 可 以 将 物理 节点 数 (0， 
1，2 直到 31) 重 定位 为 不 同类 型 的 逻辑 连接 ， 其 中 的 各 种 情况 我 们 会 在 9. 3. 4 节 中 讨论 。 

图 9-6 就 是 一 个 重 定位 的 例子 。 任 何 一 个 需要 向 PN 提交 一 个 计算 任务 的 节点 ， 都 可 以 将 该 
任务 提交 给 该 PN 节点 本 身 ， 或 其 他 节点 ， 使 得 系统 本 身 具 有 很 高 的 灵活 性 。 
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图 9-6 对 于 了 PPU 中 PN 节点 的 重 定位 ， 以 及 PN 节点 之 间 链 路 的 建立 可 以 使 用 多 种 不 同 的 策 
略 。 在 本 图 中 ，a) 表示 3 个 PN 独立 地 工作 ， 可 以 看 做 一 个 由 外 部 控制 器 控制 的 3 路 
多 数 票 决 器 ; 在 b) 中 ,另外 一 个 PN 将 多 数 票 决 处 理 从 控制 器 中 分 离 出 来 ， 通 过 这 
个 PN 来 轮流 访问 其 他 3 个 PN 使 它们 相互 合作 ; 在 ce) 中 , 4 个 PN 相连 ， 并 且 其 中 一 
个 负责 与 控制 器 的 通信 


在 PPU 生命 周期 的 开始 ， 所 有 部 件 都 能 够 正常 工作 ， 此 时 它 完 全 符合 嵌入 式 计算 机 的 规范 
22 《尤其 是 10 年 前 设计 的 规范 ) : 4000MIPS 、6W 的 耗 电量 ，1800cm' 封装 大 小 《与 小 型 笔记 本 电脑 的 
9， 一 个人 了 上 人 20 信人 大 ?到 3 人 有 

430| 功率 相当 。 除 此 之 外 ， 它 的 耗 电量 是 PPU 的 10 倍 一 一 虽然 耗 电量 不 是 卫星 设计 的 首要 因素 。 
虽然 在 PPU 的 设计 中 还 有 很 多 令 人 感 兴趣 的 因素 ， 比 如 为 了 实现 数据 的 高 速 传输 而 设计 超 
常规 的 17 位 并 行 数据 总 线 ， 但 我 们 在 本 节 中 只 关注 并 行 处 理 问题 。 如 图 9-7 所 示 为 在 多 个 处 理 
器 之 间 共 享 一 个 图 像 处 理 任务 时 的 加 速 比 。 加 速 比 〈 定 义 见 5.8.2 节 ) 指示 了 一 个 系统 并 行 处 
理 的 并 行 度 。 一 个 完美 的 加 速 比 〈 如 图 9-7 中 的 斜 线 所 示 ) 意味 着 一 个 任务 可 以 在 一 个 n 处理 器 
计算 机 上 加 速 4 倍 。 示 例 中 在 PPU 上 运行 的 并 行 算法 并 没有 达到 完美 的 加 速 比 ， 不 过 已 经 可 以 
看 出 随 着 并 行 度 的 增加 而 带 来 的 优越 性 。 
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图 9-7 道 过 使 用 最 多 9 个 处 理 节 点 完成 共享 图 像 处 理工 作 ， 并 行 处 理 单元 所 能 达到 的 加 速 比 
程度 是 一 条 完美 的 对 角 线 。 显 而 易 见 的 是 ，PPU 并 不 能 达到 如 此 完美 的 加 速 比 曲线 ， 
但 明显 会 从 并 行 处 理 获 得 好 处 。 能 够 得 到 这 样 的 结果 是 因为 采用 了 PPU 技术 ， 该 技术 
是 由 Timo Bretschneider 博士 和 他 的 学 生 们 为 了 处 理 未 被 监视 的 图 像 分 类 而 共同 发 明 的 


9. 3.3 ”并行 和 集群 处 理 注 意 事 项 


设计 并 行 处 理 系统 需要 思考 以 下 儿 个 问题 : 

。 需要 多 少 处 理 器 ? 

。 处 理 器 之 间 是 怎么 连接 起 来 的 ? 

。 每 个 处 理 器 的 能 力 有 多 大 ? 

。 系统 是 同 构 的 还 是 异 构 的 ， 即 系统 中 所 有 的 CPU 是 相同 的 还 是 混合 的 ? 

如 果 有 个 处 理 器 在 运行 ， 那么 我 们 可 以 计算 得 出 ， 完 成 任务 的 时 间 不 等 于 单个 处 理 器 所 消 
耗 时 间 的 4 倍 ， 其 至 在 一 个 同 构 的 系统 中 也 是 如 此 。 实 际 的 开销 时 间或 多 或 少 要 小 于 单个 处 理 器 
开销 时 间 的 n 倍 。 这 个 区 别 主要 取决 于 原始 的 单线 程 操作 和 并 行 操作 的 不 同 。 我 们 一 般 会 很 容易 
地 把 一 些 计 算 问 题 分 成 儿 个 子 任务 ， 这样 在 这 些 子 任务 之 间 传 输 的 数据 量 是 很 小 的 。 基 于 这 个 
假设 ， 可 以 为 每 个 子 任务 分 配 不 同 的 处 理 单元 进行 处 理 。 在 其 他 的 系统 中 ， 这 样 的 处 理 过 程 并 不 
是 很 简单 的 。 

因为 子 任务 的 复杂 程度 并 不 都 相同 ， 所 以 采用 异 构 的 系统 一 一 包含 各 种 不 同性 能 的 处 理 
器 一 一 会 带 来 更 多 的 优势 。 处 理 器 之 间 的 内 部 连接 方式 需要 满足 在 处 理 计 算 问 题 过 程 中 的 一 些 
必要 条 件 ， 也 就 是 说 ,采用 异 构 连接 是 有 可 能 的 。 但 是 ， 控 制 这 样 一 个 系统 会 更 复杂 一 一 尤其 是 
完成 动态 任务 分 割 和 动态 选择 不 同 的 已 给 定 类 型 的 处 理 器 。 


9. 3.4 互 连 策略 


让 我 们 设计 一 个 更 一 般 的 系统 ， 这 个 系统 具有 多 个 相同 的 〈 同 构 ) 处 理 器 ， 我 们 把 这 些 处 
理 器 称 为 节点 。 如 果 这 些 节 点 采用 一 种 规则 连接 起 来 的 话 ， 该 规则 主要 应 该 考虑 节点 间 的 互 连 
方式 和 连接 的 数量 这 两 个 方面 。 

互 连 方式 定义 了 在 链 路 中 传输 的 数据 宽度 和 消息 传输 的 延迟 时 间 。 上 典型 的 互 连 方式 是 以 太 
网 、ATM (异步 传输 模式 ) 、 光 学 互 连 和 无 限 宽带 。 这 些 类 型 取决 于 它们 的 带宽 和 成 本 。 

此 外 ， 有 两 个 分 布 式 并 行 处 理 系 统 的 示例 ， 在 它们 之 间 有 很 多 不 同 之 处 主要 是 共享 内 
存 和 消息 传递 。 消 息 传递 采用 结构 化 方法 在 节点 之 间 进 行 通信 ， 例 如 消息 传递 接口 (MPI) ， 并 
且 这 样 的 技术 能 很 好 地 适应 以 低 带 宽 数 据 连 接 的 松 耦 合 任务 。 当 不 同 的 处 理 器 在 同样 的 数据 源 
上 进行 操作 或 是 对 通信 的 带宽 要 求 比 较 高 时 ， 共 享 内 存 是 很 有 用 的 。 具 有 共享 内 存 的 系统 包括 
4.4.7 节 中 曾 讨论 过 的 MESI cache 一 致 性 协议 。 

每 个 节点 所 拥有 的 互 连 数量 限制 了 它 所 能 连接 的 其 他 节点 的 数量 。 其 中 一 个 极端 是 每 个 节 
点 完全 和 其 他 节点 连接 起 来 。 在 处 理 器 之 间 的 连接 数据 传输 速度 相对 比较 慢 的 前 提 下 ， 因 为 每 
一 次 传输 都 是 在 单 跳 的 情况 下 进行 的 ， 所 以 ， 一 个 全 连接 系统 会 使 得 数据 传输 的 持续 时 间 缩 短 。 
另外 一 个 极端 是 环形 结构 ， 即 每 个 节点 和 另外 两 个 节点 相连 接 。 这 些 互 连 策略 如 图 9-8 所 示 。 


人 尽 翻 昌 屯 


超 立 方 体 全 五 连 








图 9-8 6 种 不 同 的 并 行 互 连 方式 ， 图 中 以 圆 点 表 冰 计算 节点 ， 以 直线 表示 节点 之 问 的 链 路 


环形 一 一 每 个 单元 都 有 两 个 连接 ， 它 可 以 在 不 改变 每 个 单元 连接 结构 的 情况 下 进行 扩展 。 
但 是 ， 在 目标 节点 之 间 的 连接 会 存在 潜在 的 数据 多 跳 。 
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树 一 一 每 一 个 单元 (顶层 和 底层 除外 ) 都 有 三 个 连接 。 它 很 容易 进行 扩展 ， 并 简化 软件 数 
据 路 径 ， 但 是 节点 之 间 的 连接 会 存在 数据 多 跳 。 

网 状 一 一 每 个 单元 都 有 四 个 连接 。 它 很 容易 扩展 ， 但 是 数据 路 径 很 复杂 并 且 存 在 多 跳 。 网 格 
(grid) 也 是 一 种 相似 的 连接 方式 ， 但 是 在 边缘 环绕 连接 方式 上 有 所 不 同 。 

全 互 连 一 一 每 个 单元 和 其 他 的 每 个 单元 都 有 连接 ， 在 这 种 连接 方式 下 不 易于 扩展 。 但 是 任 
意 节点 之 间 的 连接 最 大 只 有 一 跳 。 

超 立方 体 一 一 尽管 每 个 单元 以 四 面体 的 方式 都 有 四 个 连接 ， 但 是 在 数据 路 径 上 的 跳 数 可 以 
降低 到 最 小 。 在 大 多 数 情况 下 ， 这 是 一 个 体系 结构 的 选择 ， 有 时 仅仅 是 因为 它 在 公司 新 闻 稿 看 上 
去 显得 高 科技 才 会 被 选择 。 

的 确 ， 存 在 混合 策略 是 理所当然 的 。 例 如 ， 一 个 网 状 -环形 结构 ， 环 上 的 每 个 节点 是 一 组 机 器 ， 
并 连接 成 网 状 结构 。 也 许 一 个 更 普 记 的 例子 是 超 立 方 体 的 网 格 结构 ， 这 样 的 结构 常 出 现在 一 个 以 网 
格 结构 连接 的 并 行 处 理 中 心中 ， 在 网 格 中 的 每 个 顶点 都 包含 一 个 以 超 立 方 体 为 体系 结构 的 处 理 器 。 

粒度 大 小 用 来 描述 并 行 的 级 别 。 在 大 多 数 细 粒度 的 机 器 中 ， 实 际 的 机 器 指令 是 以 一 种 并 行 
的 方式 进行 处 理 〈 例 如 向 量 机 或 VLIW 处 理 器 ) ， 相 应 地 ， 粗 粒度 机 器 能 够 并 行 地 运行 大 型 软件 。 
这 部 分 内 容 在 5. 8 节 中 有 详细 介绍 。 

随 着 诸如 MPI 等 抽象 概念 的 出 现 ， 粗 粒度 并 行 算法 能 够 在 不 同 的 程序 实例 中 执行 。 这 些 算 
法 能 否 运 行 在 一 个 CPU 上 或 同时 运行 在 多 个 CPU 上 并 不 重要 。 类 似 地 ， 这 些 CPU 是 集成 在 一 个 
板子 上 ,或 是 在 配 有 一 个 数据 中 心 的 几 块 板子 上 ,或 是 在 以 云 结 爸 或 网 格 结构 组 成 的 计算 机 系 
统 中 的 不 同 的 地 理 位 置 上 也 是 不 重要 的 。 

粗 粒 度 机 器 都 是 松 看 合 的 ， 相 反 细 粒度 机 器 更 倾向 于 紧 耦 合 。 单 元 之 间 数 据 传 输 的 大 小 决 
定 了 它们 之 间 的 数据 连接 的 速度 和 数据 传输 的 跳 数 ， 并 且 这 方面 要 考虑 到 带宽 和 延迟 时 间 等 因 
素 〈 例 如 ， 如 果 处 理 器 之 间 的 数据 必须 传送 两 跳 的 距离 ， 那 么 每 一 路 将 是 带宽 的 两 倍 ) 。 数 据 传 
输 的 要 求 对 存储 器 结构 也 有 一 定 的 影响 ， 例 如 每 个 处 理 单元 应 该 使 用 局 部 存储 还 是 之 前 提 到 的 
共享 存储 。 局 部 存储 器 可 以 进行 分 布 式 存储 或 简单 地 使 用 缓存 的 多 个 副本 。 有 关 大 规模 并 行 处 
理 机 的 例子 见 框 9.2。 

并 行 处 理 机 的 例子 

Roadrunner， 在 编写 本 书 时 最 快 的 超级 计算 机 ， 位 于 美国 新 墨西哥 州 的 Los Alamos 实验 室 。 实 际 上 它 是 
一 系列 TBM 计算 机 的 集群 ， 包 括 6912 个 1.8GHz 的 AMD Opteron 处 理 器 和 12 960 个 3.2GHz 的 IBM PowerXCell 
8i Cell 处 理 器 (5. 8.3 节 )。 在 Opteron 和 Cell 内 总 共有 超过 103TB 的 RAM 空间 ， 所 有 机 器 之 间 通 过 无 限 宽带 
(Infiniband) 技术 相连 接 。 核 的 总 数 〈 记 住 ， 一 个 Cell 包含 9 个 核 ， 一 个 Opteron 包含 2 个 核 ) 超过 130 000 
个 。 了 驱动 这 台 机 器 的 操作 系统 理所当然 是 Linux。 整 体 来 说 ， 这 个 系统 峰值 速度 可 以 达到 1.71 petaFLOPS 
(10 “FLOPS 一 一 见 3.5.2 节 )。 但 是 同时 要 消耗 2.35MW 的 电能 ， 大 约 等 于 一 个 英国 小 镇 的 耗 能 。 

Eka， 印 度 最 快 的 超级 计算 机 (世界 排名 第 13 位 ) 。 供 职 于 杰出 的 Tata 集团 ， 可 以 以 0.786MW 的 电能 
达到 172 TeraFLOPS (102FLOPS) 的 运算 速度 。14 240 个 核 散布 在 1800 个 3.0GHz 的 Intel Xeon 53xx 处 理 
器 节点 上 。 据 说 这 台 Linux 驱动 的 机 器 是 基于 一 个 商业 计划 的 尝试 ， 可 以 使 他 们 的 工作 运行 于 这 人 台 功 能 强 
劲 的 野兽 身上 。 

DeepComp 7000 是 中 国 最 杰出 的 超级 计算 机 ， 位 于 中 国 科学 院 的 计算 机 网 络 信息 中 心 。 该 机 器 使 用 了 
通过 无 限 宽 带 技 术 相 连 的 3.0GHz 的 Intel Xeon E54xx 处 理 器 ， 总 共 包含 了 12 216 个 核 ， 运行 速度 排名 世界 
第 19 位 ， 峰 值 速度 达到 145 TeraFLOPS。 近 些 年 来 ， 中 国 的 超级 计算 机 在 排行 榜 上 进步 明显 ， 已 经 逐步 越 
过 了 英国 和 美国 等 传统 的 超级 计算 机 强国 。 

超然 酒 脱 的 是 Google 的 服务 器 群 。 如 果 把 它们 看 成 一 个 集群 ， 那 它们 极 有 可 能 超越 所 有 的 超级 计算 
机 。 然 而 Google 和 他 的 竞争 者 们 都 是 暗地里 安装 他 们 的 机 器 。 很 少 公开 声明 ，Google 儿 平 从 不 显露 它 自己 
的 东西 。 因 此 ，Tata Eka 仍旧 是 极 少数 的 对 外 公开 的 私人 商用 机 器 之 一 。 





















































9.4 异步 处 理 器 


现 阶段 ， 所 有 常用 的 现代 CPU 在 执行 操作 时 都 采用 同步 方式 ， 这 意味 着 它们 使 用 一 个 或 多 
个 全 局 时 钟 〈《 和 域 ) ， 如 处 理 器 时 钟 、 存 储 时 钟 、 系 统 时 钟 、 指 令 时 钟 以 及 总 线 时 钟 等 。 

在 某 一 特定 时 钟 域内 〈 忆 片上 的 一 个 物理 区 域 ， 所 包含 的 部 件 受 同一 时 钟 驱 动 ) ， 触 发 器 和 
基于 基本 触发 器 的 单元 在 执行 操作 时 是 同步 的 。 时 钟 的 速度 需要 考虑 一 个 由 最 慢 部 件 所 决定 的 
特定 域 的 上 限 。 一 般 来 说 ， 这 意味 着 有 些 部 件 本 可 以 运行 得 更 快 ， 但 实际 运行 速度 却 要 被 最 慢 的 
部 件 所 抑制 。 

举例 来 说 ， 一 个 ALU 从 两 个 保持 寄存 器 中 获取 它 的 输入 值 ， 一 个 时 钟 周 期 后 ， 将 运算 结果 
锁 存 到 -个 输出 寄存 器 中 -. 如 果 执 行 一 个 加 法 运算， 那么 操作 基本 上 会 刚好 完成 ， 也 许 只 是 早 
0.01 个 时 钟 周期 。 然 而 ， 如 果 执 行 的 操作 比较 简单 ， 如 与 运算 这 样 不 需要 进位 传递 的 运算 ， 那 
么 操作 通常 会 提前 很 多 ， 也 许 会 早 0.9 个 时 钟 周期 完成 。 所 以 ,基于 ALU 所 执行 的 不 同 操作 ， 
运算 时 间 也 许 会 占据 一 个 时 钟 周期 或 者 会 提前 完成 等 待 结果 。 无 论 如 何 ， 控 制 该 过 程 的 时 钟 会 
被 设 定 为 与 最 慢 的 操作 相 匹 配 。 

对 于 ALU 操作 的 分 析 表 明 : 在 大 量 的 时 间 里 ， 这 些 单元 通常 处 于 空闲 状态 ， 这 说 明 整 体 的 
使 用 效率 很 低 . 有 有 很 多 技术 可 以 用 来 克服 效率 上 的 制约 ， 包 括 允 许 并 行 操作 ( 几 个 事件 同时 发 
生 而 不 是 依次 发 和 后) 和 使 用 流水 线 技 术 。 流 水 线 技术 将 单个 元 素 划 分 为 更 小 、 更 快 的 元 素 并 且 
在 操作 过 程 中 重合 地 使 用 它们 。 得 益 于 每 一 个 元 素 的 加 速 ， 整 体 时 钟 的 速度 可 以 得 到 提高 。 

一 种 非常 不 常用 的 技术 是 使 用 异步 处 理 器 。 异 步 处 理 絮 允许 每 一 步 操 作 在 不 浪费 任何 时 钟 
周期 的 情况 下 全 速 执行 。 实 际 上 ， 也 许 根本 没有 必要 设立 一 个 时 钟 ， 因 为 每 个 元 素 都 是 在 以 最 大 
速度 执行 操作 ， 当 操作 完成 后 将 通知 硬件 控制 部 分 。 

使 用 同步 方法 的 优点 如 下 : 

。 设计 相对 简单 而 且 相 对 来 说 有 更 多 的 关于 同步 方法 的 设计 经 验 。 

。 几乎 所 有 的 CPU 设计 工具 都 假定 了 一 种 时 钟 设计 。 

。 消除 竞争 条 件 。 

。 可 预见 的 延迟 。 

使 用 同步 方法 的 缺点 如 下 : 

。 在 高 速 条 件 下 ， 时 钟 偏 移 将 成 为 一 个 问题 。 

。 几乎 所 有 的 锁 存 器 和 门 电路 会 随 着 时 钟 进行 切换 (不管 是 否 有 数据 要 处 理 )。 由 于 CMOS 

的 能 耗 基本 上 都 是 由 切换 引起 的 ， 因 此 会 导致 更 多 的 电能 消耗 。 

。 实际 性 能 低 于 理论 最 大 值 (最 慢 元 素 的 操作 速度 会 导致 部 分 时 钟 周期 的 浪费 ) 。 

。 大 量 的 硅 资源 将 被 用 于 时 钟 生成 和 分 布 。 

使 用 异步 方法 是 有 理 可 循 的 ， 尽 管 每 一 个 异步 元 素 仍然 与 它 的 邻居 相连 ， 而 且 这 也 需要 某 
种 形式 的 同步 ， 但 是 不 需要 一 个 全 局 时 钟 。 这 种 同步 方式 可 能 相对 简单 ， 但 是 复制 到 一 个 由 许多 
元 素 组 成 的 集成 电路 中 会 导致 额外 的 逻辑 。 

理论 上 来 说 ， 与 相似 的 同步 处 理 器 相 比 ， 蜡 步 处理 器 会 有 更 低 的 功 耗 和 更 高 的 运行 速度 。 然 
而 , 设计 者 需要 高 度 注 意 竞 争 条 件 发 生 的 可 能 性 。 为 了 避免 这 些 情况 ， 异步 处 理 器 比 同步 处 理 器 
在 规模 上 会 稍 大 一 些 。 

AMULET 是 异步 处 理 器 的 一 个 很 好 的 例子 〈 实 际 上 是 在 编写 本 书 时 世界 上 唯一 的 商业 异步 
体系 结构 ) 。 它 由 英国 的 曼彻斯特 大 学 设计 ， 基 于 非常 流行 的 ARM 处 理 器 。 在 AMULET 的 设计 
过 程 中 解决 了 很 多 特定 的 问题 。 我 们 将 在 下 面 几 节 中 分 析 一 下 其 中 某 些 问题 以 及 设计 者 采用 的 
解决 方法 。 
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9.4. 1 数据 流 控制 


如 果 处 理 器 没有 相应 的 基准 时 钟 ， 那 么 如 何 对 数据 流 从 一 个 单元 到 下 一 单元 的 流动 过 程 
进行 控制 呢 ? AMULET 采用 了 一 种 请 求 -确认 握手 机 制 ， 在 单 向 并 行 总 线 中 按照 下 列 事件 顺序 
执行 : 

1) 发 送 端 将 数据 发 送 到 总 线 上 去 。 

2) 发 送 端 触发 请 求 事件 。 

3) 一 旦 准备 就 绕 ， 接 收 端 从 总 线 上 读 取 数据 。 

4) 接收 端 之 后 触发 确认 事件 。 

5) 发 送 端 将 数据 从 总 线 上 移 除 。 

请 求 和 确认 信号 是 在 沿 着 标准 总 线 运 行 的 两 条 单独 线路 中 传递 。 图 9-9 描述 了 实际 应 用 中 边 
缘 触发 信号 的 情况 。 

人 XX 站 -~ 5 
本 | 请 求 。 \> 本 | 

确认 和 
图 9-9 用 于 异步 总 线 通信 的 请 求 -确认 总 线 处 理 


使 用 请 求 - 确认 信号 使 得 每 一 个 组 成 元 素 可 以 使 用 自己 的 时 钟 。AMULET 的 每 一 个 流水 线 元 
素 根据 实际 执行 指令 的 情况 按照 自己 的 速度 各 自 运转 。 换 句 话说 ， 执 行 简单 操作 的 单元 会 很 快 
完成 操作 ， 执 行 较为 复杂 的 单元 可 能 会 需要 更 长 的 时 间 。 在 最 糟糕 的 情况 下 ， 一旦 采用 同步 时 钟 
(如 上 文 所 言 ， 最 慢 的 元 素 决定 整体 运行 速度 ) ， 整 个 流水 线 将 以 相同 的 速度 执行 。 尽 管 如 此 ， 
在 实际 应 用 过 程 中 ， 流 水 线 的 效率 还 是 要 高 于 整体 采用 同步 时 钟 的 情况 。 


9. 4. 2 ”避免 流水 线 冒 险 


如 果 指 令 在 不 同时 间 甚 至 是 未 知 的 时 间 里 完成 ， 那 么 我 们 如 何 能 够 在 流水 线 中 避免 先 写 后 
读 冒 险 呢 ? 

由 于 处 理 器 采用 类 似 于 ARM 芯片 的 取 数 - 存 数 体系 结构 ， 因 此 几乎 所 有 的 CPU 操作 数 都 是 
寄存 器 到 寄存 器 的 。 因 此 ， 我 们 需要 一 种 机 制 来 避免 先 写 后 读 问 题 的 发 生 ， 即 一 条 读 取 指令 要 从 
某 寄 存 器 中 读 取 数据 ， 然 而 该 数据 结果 仍 未 被 前 一 条 写 指令 写 人 。 

解决 的 方法 是 采用 一 种 基于 FIFO 的 锁 寄存 器 机 制 。 T8 中 I2 rl ro 
当 一 条 指令 需要 写 人 一 个 特定 的 寄存 器 时 ， 它 按照 FIFO 
方式 设 定 一 个 锁 ， 然 后 当 写 完成 后 清除 该 锁 。 当 读 指 令 
发 生 时 ， 首 先 检测 被 读 寄存 器 是 否 存在 锁 。 如 果 存 在 
锁 ， 则 暂停 该 指令 直至 寄存 器 解锁 。 

图 9-10 给 出 了 寄存 器 锁 的 例子 ， 图 中 给 出 了 前 8 个 
FIFO 的 寄存 器 锁 。 锁 的 位 置 与 流水 线 位 置 以 及 流向 相 一 “ 本 ER 
致 。 在 正在 运行 的 程序 中 ， 指 令 1 的 结果 被 送 到 rl, 指 图 9-10 用 于 避免 流水 线 冒 险 的 AMU- 











令 2 的 结果 被 送 到 号， 指令 3 的 结果 被 送 到 吗 ， 结 果 到 LET 处 理 器 的 寄存 器 锁 硬 件 。 
DR 

达 后 清除 相应 的 寄存 器 锁 。 在 当前 时 间 内 ， 如 果 有 任何 td 

令 读 取 可、 上 或 者 唱 ， 则 相应 的 读 取 指令 将 被 停止 直 ht 

全 示 寄 存 器 接 下 来 将 要 进行 的 写 


至 相应 的 寄存 器 锁 解除 。 操作 的 顺序 


尽管 寄存 器 锁 机 制 解决 了 可 能 存在 的 先 写 后 读 冒 险 ， 然 而 它 会 导致 流水 线 频繁 停摆 。 因 此 ， 
最 近 的 AMULET 处 理 器 在 异步 应 用 中 采用 寄存 器 转发 机 制 。 


9.5 替代 数字 格式 系统 

纵 观 计算 机 世界 和 CPU 发 展 的 今天 ， 我 们 看 到 大 量 的 二 元 逻辑 设备 ， 高 电压 用 逻辑 1 表示 ， 
低 电 压 用 逻辑 0 表示 。 二 进 制 字 由 几 个 位 组 成 一 一 通常 为 4，8，16，24，32 或 64。 无 论 是 二 进 
制 补 码 还 是 无 符号 数 ， 每 个 位 的 加 权 在 二 进 制 字 中 都 代表 2 的 宕 。 进 一 步 扩展 的 浮 点 数 分 别 代表 
尾数 和 指数 ， 但 这 些 也 都 是 二 进 制 字 ， 其 加 权 基 于 2 的 宕 。 

模拟 计算 机 是 一 个 令 人 耳目 一 新 的 选择 ， 但 在 20 世纪 80 年 代 ， 数 字 计 算 机 变 得 更 快 、 更 便 
宜 、 更 小 、 更 准确 ， 模 拟 计算 机 逐步 被 淘汰 。 为 了 满足 计算 需求 ， 数 字 二 进 制 系统 处 于 主导 
地 位 。 

然而 ， 处 于 研究 中 的 菜 些 替代 系统 在 某 些 应 用 中 可 能 迟早 成 为 主流 。 这 些 都 将 在 下 面 几 节 
中 探讨 。 


9.5.1 多 值 逻 辑 


越 来 越 快 的 时 钟 速度 是 未 来 几 年 计算 业界 发 展 的 规律 ,但 是 受到 了 很 多 限制 。 诚 然 ， 这 些 限 
制 正在 慢 慢 变 小 ， 但 它们 仍然 制约 着 前 进 的 脚步 。 正 如 我 们 在 第 6 章 中 提 到 的 ， 如 果 时 钟 速率 受 
到 限制 ， 可 以 通过 多 线 并 行 或 在 一 个 时 钟 的 上 下 双 沿 都 传送 数据 〈 双 数据 速率 或 DDR) 来 传输 
更 多 的 数据 。 

还 有 一 种 替代 方式 ， 即 允许 电压 改变 以 使 得 每 根 数据 线 可 以 携带 更 多 的 信息 。 这 可 以 通过 
使 用 多 值 逻 辑 来 实现 。 例 如 ， 编 码 一 个 两 位 的 字 到 4 路 电压 中 : 


00 0.0V 
01 1.7V 
10 3.3V 
11 5.0V 


这 和 电子 学 中 常用 的 CMOS 电压 水 平 是 截然 不 同 的 ， 需 要 更 复杂 的 驱动 器 和 检测 电路 ， 但 两 
倍 的 数据 量 可 以 在 一 根 线 上 表示 。 相 对 于 利用 两 个 〈 二 进 制 ) 电 下 水 平 的 系统 ， 它 降低 了 数据 
的 抗 干扰 度 。CPU 使 用 这 样 的 逻辑 需要 考虑 模拟 以 及 数字 化 设计 问题 。 随 着 抗 噪声 能 力 的 减弱 ， 
它 有 些 不 耐 噪声 和 干扰 尖峰 ， 但 可 以 更 快 地 传递 更 多 的 数据 。 

据 笔者 所 知 ， 目 前 没有 任何 商业 CPU 利用 这 种 方法 ， 但 是 这 项 技术 在 内 存 存储 中 得 到 了 合 
理 的 应 用 。 在 持续 的 压力 下 ，Intel 与 其 他 闪存 供应 商 共 同 发 布 “ 较 大 的 ”设备 一 这 意味 着 可 
以 在 给 定 的 体积 下 使 用 能 存储 更 多 位 的 设备 。 制 造 商 通常 会 降低 硅 的 特征 尺寸 ， 人 允许 小 型 唱 
管 装 进 更 密集 的 集成 电路 。 然 而 ，Intel 在 几 年 前 提出 了 更 激进 的 设计 ， 使 用 多 值 逮 辑 方法 让 2 位 
数据 存储 在 一 个 晶体 管 单元 中 。 市 场 上 如 StrataFlash (@Intel) 这 样 的 设备 ， 在 手机 、MP3 播放 
器 和 个 人 数字 助理 (PDA) 中 得 到 广泛 应 用 。 

注意 到 多 值 增加 的 数量 是 收益 减少 的 一 一 从 1 位 移动 至 2 位 ， 意 味 着 对 半分 阐 值 电压 〈 但 可 
以 表示 数据 的 数据 量 增加 一 倍 ) 。 从 2 位 移动 到 3 位 是 指 再 次 减 半 立 值 电压 (但 只 增加 了 50% 的 
表示 数据 的 数据 量 ) 。 这 表明 了 收益 递减 ， 再 加 上 噪声 的 敏感 度 增 加 ， 因 此 在 实践 中 该 技术 往往 
限制 在 每 单元 /晶体 管 / 电 线 2 位 。 

这 里 要 提 到 的 最 后 一 点 是 宇宙 射线 辐射 的 影响 ， 我 们 在 7. 10 节 曾 简要 地 对 单 粒 子 翻转 
(SEU) 的 发 生 进行 了 讨论 。 由 于 字 宙 射线 撞击 硅 栅 从 而 导致 存储 电荷 的 变化 ， 这 表现 为 一 个 电 
压 波动 。 多 值 逻 辑 设备 对 电压 噪声 免疫 力 下 降 ， 这 意味 着 这 些 设备 最 好 避免 用 在 高 海拔 的 地 方 ， 
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如 飞机 上 、 电 子 登山 装备 中 和 墨西哥 城 或 拉萨 等 地 的 消费 类 电子 产品 中 。 
9. 5. 2 ” 带 符号 数字 的 表示 


带 符 号 位 (Signed Digit，SD) 是 有 宛 余 的 二 进 制 表示 的 扩展 〈 即 有 多 种 方式 表达 ) 。 宛 余 来 
自 所 引进 每 一 个 数字 都 有 可 能 是 带 符号 的 ， 并 且 表 示 数 字 有 一 定 的 自由 度 。 

使 用 符号 就 意味 着 SD 数字 字 的 每 个 位 的 位 置 有 “1”,“0” 或 “ -1” 三 种 状态 、 实 际 位 的 
权重 和 一 个 标准 的 二 进 制 数 相同 。 当 然 , 这 有 一 个 明显 的 缺点 : 在 每 个 位 的 位 置 必 须 处 理 负数 
(而 不 是 仅仅 在 补 码 的 最 高 有 效 位 ) 。 不 过 ， 这 个 缺点 可 以 忽略 不 计 ， 因 为 二 进 制 加 法 器 执行 加 
减 运算 时 是 几乎 相同 的 方式 ， 无 需 额 外 的 硬件 。 

下 表 给 出 了 十 进 制 值 3 的 许多 替代 表示 方法 的 SD 例子 : 
































SD 向 量 值 权重 
(000011) 2+1=3 2 
(000 1 0-1) 4-1=3 2 
(0 0 1-1 0-1) 8-4-1=3 3 
(0 1-1-1 0-1) 16-8-4-1=3 4 
(1-1-1-1 0-1) 32 -16-8-4-1=3 5 
(0 0 1-1-1 1) 8-4-2+1=3 4 
(0 1-1-1-1 1) 16-8-4-2+1=3 5 
(1-1-1-1-1 1) 32-16-8-4-2+1=3 6 


我 们 稍 后 将 会 看 到 ， 如 果 选 择 一 种 有 更 多 零 位 的 其 他 表示 方法 ， 则 会 在 加 法 操作 特别 是 乘 
法 操作 中 使 用 更 少 的 操作 。 我 们 定义 一 个 带 符号 位 数字 的 权 值 为 非 零 数 字 的 总 数 。 权 值 越 低 越 
好 ， 因 为 这 会 使 部 分 积 运算 速度 更 快 。 

以 2 为 基数 的 二 进 制 数 转换 成 SD 表示 方法 ， 可 以 使 用 以 下 算法 : 

令 a_,，a.;,，"…， 表示 一 个 二 进 制 数 ， 所 需 的 SD 表示 结果 为 c-,，c-:，…，cs。 在 SD 表 
示 方 法 下 的 每 一 位 都 是 按照 下 面 的 方法 确定 : 

c =aii-ai，， 其 中 i =6b,b6-1,-…,] 
其 中 a _, ,=0。 

为 了 在 FPGA 或 类 似 的 系统 中 更 好 地 利用 这 种 表示 方法 的 元 余 特 性 ， 应 保证 尽 可 能 少 用 非 零 
数字 表示 。 这 可 以 通过 一 个 最 小 的 带 符 号 数 向 量 实现 。 这 是 一 个 有 最 小 权 值 的 (或 可 能 是 很 多 ) 
SD 表示 方法 。 

前 面 表 中 的 所 有 例子 都 代表 相同 的 数字 3 ， 表 中 的 第 一 项 和 第 二 项 的 最 小 权重 是 2 并 且 是 最 
小 的 带 符号 数 向 量 。 注 意 第 二 行 (0 00 10 -1) 是 最 小 的 带 符号 数 向 量 。 此 外 ， 两 个 非 零 数字 
之 间 有 一 个 零 。 事 实 上 可 以 证 明 每 一 个 数字 的 SD 表示 存在 的 条 件 是 没有 非 零 的 数字 相 邻 。 有 时 
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可 能 有 一 个 或 更 多 的 表示 ， 这 些 数字 被 称 为 规范 的 。 

因此 ， 规 范 的 带 符号 数字 〈 Canonical Signed Digit，CSD) 数字 是 最 小 的 带 符号 数 向 量 ， 并 且 
保证 至 少 有 一 个 零 在 任意 两 个 非 零 数 字 中 间 。 

除了 有 许多 零 参 与 计算 从 而 使 硬件 运算 量 减 少 以 外 ， 选 择 CSD 数字 还 有 另外 一 个 很 好 的 理 
由 。 在 2.4.2 节 中 介绍 的 并 行 加 法 器 执行 加 法 的 最 高 速度 受 向 上 的 进位 传递 限制 。 当 然 ， 也 有 超 
前 进位 或 预测 技术 ， 但 当 操 作 码 字 变 大 时 需要 大 量 的 逻辑 运算 。 但 是 ， 如 果 我 们 能 保证 一 个 非 零 
位 的 下 一 个 最 高 有 效 位 的 数字 始终 是 零 ， 就 不 可 能 有 进位 传播 。 
这 样 ， 使 用 CSD 数字 执行 加 法 运算 的 速度 非常 快 ， 没 有 进位 传播 的 问题 。 


现在 让 我 们 看 看 产生 这 样 一 个 数字 的 一 种 方法 (此 方法 在 由 Kai Hwang 所 著 ， 于 1979 年 出 
版 的 《Computer Arithmetic: Principles，Architecture and Design》 一 书 中 进行 了 讨论 ) 。 
首先 ， 用 (n+1) 个 二 进 制 位 表示 一 个 向 量 B= 56,6, 1…b,b。， 其 中 b, =0， 每 个 元 素 
b,e 10, 1} ,0<isn -1。 由 此 看 来 ,我们 要 找到 长 度 为 (n+1) 的 规范 的 带 符号 数字 (CSD) 向 
其 DD=d,d, 1…dido，d, =0, dsll 0，-1|}。 尽 管 表达 的 格式 不 同 , 但 8 和 D 表示 相同 的 值 。 
请 记 住 ， 就 确定 一 个 数 〈 事 实 上 任意 一 个 带 符号 数字 向 量 ， 包括 SD、CSD 等 ) 的 值 而 言 ， 
二 进 制 的 一 般 规 则 适用 于 每 个 位 和 加 权 值 的 关系 : 
Qa = yb x2 = yd, x2’ 
F 面 提出 -种 基于 Hwang 方法 的 启发 式 算法 。 该 算法 获得 一 个 二 迁 制 数 的 CSD 表示 ,简单 
但 逻辑 性 很 强 。 
第 1 步 首先 从 B 的 最 低 有 效 位 开始 ， 设 置 索 引 革 = 0 和 初始 进位 co =0。 


从 B 取 岗 个 相 邻 位 5 和 i,1 以 及 进位 c;， 并 用 这 些 产 生 下 - 个 进位 cv。 进位 的 产生 方式 和 全 加 是 一 样 
的 : 因此 ， Ci#l =1 当 且 仅 当 在 {Bis1 ， bi, Ci 中 存在 两 个 或 三 个 1。 








第 2 步 
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第 3 步 在 CSD 数字 中 计算 当 前 位 地 二 b; te —2ci4] 四 
第 4 步 | 迪 增 监 1， 转 到 第 2 步 。 当 i=n 时 结束 。 





请 注意 ， 计 算 之 前 ， 原 始 二 进 制 数 的 最 高 有 效 位 固定 为 0 (这 样 位 的 位 置 有 效 地 延长 了 1 
位 ) 因此 ，CSD 表示 可 能 有 - -个 额外 的 数字 。 框 9.3 中 给 出 了 CSD 的 另 一 个 例子 。 
CSD 例子 
让 我 们 分 析 下 面 的 8 位 二 进 制 数 : 
(01010111), 十 进 制 值 是 87。 
采用 Hwang 启发 式 算法 ，CSD 的 表示 为 : 
(010 -10 -100 -1)， 值 为 128 -32 -8-1=87。 
在 他 的 例子 中 ， 因 为 数字 是 规范 的 ， 所 以 没有 相 邻 的 非 零 数字 并 且 CSD 的 权重 是 4。 


9.6 光 计算 

目前 ， 很 多 高 级 研究 学 者 把 目光 集中 在 研究 可 以 提高 CPU 性 能 的 新 技术 上 。 本 节 主 要 介绍 
基于 光 处 理 的 两 个 有 趣 的 想法 。 

任意 一 台数 字 计 算 机 都 必须 具有 开关 。 过 去 的 20 多 年 ， 针 对 光学 开关 技术 已 经 投入 了 大 基 
的 科研 努力 ， 但 是 ， 微 型 全 光学 开关 尚 处 于 实验 室 研究 阶段 。 集 成 光学 是 光学 技术 的 一 个 分 支 ， 
主要 是 利用 类 似 于 电子 集成 电路 技术 (在 同一 个 基板 上 混合 各 种 电子 元 器 件 ) 的 构造 工艺 ,在 
硅 和 其 他 基板 上 开发 光学 电路 的 技术 。 当 前 许多 商用 设备 都 采用 了 这 类 技术 ， 包括 多 路 复 用 器 
和 滤波 器 等 。 

尽管 全 光学 计算 机 是 主要 的 研究 目标 ， 但 是 近 几 年 ， 基 于 混合 的 光电 系统 已 经 开发 了 很 多 
应 用 。 采 用 光学 信和 号 的 主要 动因 是 它们 的 速度 : 信号 是 以 光速 进行 传输 的 。 几 个 信号 可 以 在 没有 
相 世 后 扰 的 前 提 下 〈 即 光线 交叉 ) 同时 存在 于 .一 个 物理 信道 中 ， 此 外 光学 干扰 要 比 电子 于 扰 更 
容易 控制 。 


9. 6. 1 光电 全 加 器 


回忆 -- 下 2.4.2 节 中 带 有 进位 传输 延迟 的 全 加 器 ， 我 们 所 遇 到 的 问题 是 直到 进位 从 最 低位 到 
最 剖 位 都 运算 完 时 ， 才 能 输出 计算 结果 。 因 此 向 上 的 传输 延迟 成 为 全 加 器 运算 速度 的 主要 限制 

















因素 。 

光电 全 加 器 的 工作 原理 是 以 光速 进行 进位 的 运算 。 进 位 的 运算 电路 如 图 9-11 所 示 ， 需 要 重点 
关注 的 是 图 中 的 x 比特 流 和 y 比特 流 是 电子 信号， 而 输入 的 进位 和 输出 的 进位 都 是 光学 比特 流 。 

Cour = xy +XCN +yYCN 

它 是 一 个 以 并 行 加 法 器 呈现 出 来 的 结构 ，Cx 作 为 计算 Co 过 程 的 一 部 分 ， 是 由 数据 的 次 低 
位 运算 出 来 的 结果 。 每 一 位 有 两 个 开关 元 素 ， 输 入 位 一 旦 出 现 ， 开 关 就 会 启动 。 换 名 话说， 所 有 
的 开关 会 随 着 所 有 位 运算 的 发 生 而 同时 发 生 。 交 学 进位 会 以 光速 传输 通过 整个 结构 。 后 续 的 电 
路 (图 中 未 显示 ) 用 来 计算 每 一 位 的 输出 结果 (取决 于 输入 位 和 Ci ) 。 这 部 分 相 较 于 之 前 的 电 
路 部 分 不 是 很 重要 ， 因 为 一 旦 所 有 的 进位 都 以 光速 的 速度 运算 完 之 后 ， 实 际 的 位 加 法 会 正常 地 
运算 完 。 

把 这 项 技术 所 产生 的 传输 延迟 和 一 个 标准 的 =” 位 全 加 器 相 比 较 ， 后 者 的 一 个 单独 加 法 单元 的 
传输 延迟 〈 几 个 AND 门 和 OR 门 的 传输 延迟 ) 是 前 者 的 4 倍 。 这 项 技术 是 当前 计算 机 体系 结构 
领域 中 光学 辅助 技术 研究 的 主题 之 一 。 





图 9-11 光电 全 加 器 结合 电子 开关 和 光学 通路 构成 一 个 快速 加 法 喘 ， 其 速度 不 会 受到 逮 
辑 门 的 传输 速度 的 限制 


9. 6. 2 光电 底板 


随 着 总 线 不 断 变 宽 ( 数 据 总 线 和 地 址 总 线 为 64 位 或 更 宽 ) ， 计 算 机 中 大 量 的 信号 连接 各 个 
模块 和 区 块 。 它 们 的 时 钟 也 会 随 之 加 快 ， 因 此 会 产 
生 更 多 的 电磁 干扰 (EMI)， 从 而 导致 更 多 的 信和 号 
受到 电磁 干扰 的 影响 。 这 也 使 得 总 线 设计 工作 变 得 
复杂 ， 例 如 ， 在 能 人 式 单 片 机 的 设计 中 ，12 或 16 
层 的 PCB 板 很 常见 。 特 别 是 ， 在 PCB 板 上 设计 大 
量 总 线 交 叉 的 区 域 很 困难 ,更 困难 的 是 (从 EMI 
的 视角 来 分 析 ) ， 存 在 很 多 并 行 并 且 长 度 很 长 的 
总 线 。 

以 上 提 到 的 困难 的 一 种 解决 方案 是 采用 光电 技 
术 。 采 用 这 种 光学 技术 的 最 大 好 处 是 光线 具有 的 那 
种 可 以 在 互 不 干扰 的 前 提 下 相互 交织 或 以 很 近 的 距 
离 进行 传输 的 特性 。 光 学 底板 已 经 证 明了 光学 的 这 图 9-12 光电 底板 使 用 了 全 像 摄影 沙 板 将 光线 





种 相互 连接 的 优势 。 它 们 为 每 个 信号 输出 使 用 了 对 ha a dh test 
应 的 光电 二 极 管 ， 以 及 为 每 个 信号 输入 使 用 了 对 应 et ee oe et 
的 光电 二 极 管 。 图 9-12 显示 了 信号 输出 到 接收 阵 光线 信号 定位 在 物理 上 分 隔 开 的 有 插 


列 路 径 的 全 像 图 。 槽 的 卡片 上 


光学 底板 没有 最 大 时 钟 速度 〈 它 们 仅仅 受 限 于 激光 二 极 管 的 调制 和 光电 二 极 管 的 带宽 ) ， 时 
钟 的 速度 是 非常 快 的 一 一 至 少 是 以 GHz 来 计量 的 。 这 些 底板 可 以 进行 热 插入 ( 即 在 系统 运行 过 
程 中 ,将 没有 插 权 的 卡片 做 成 有 插 模 的， 但 是 底板 信号 并 不 改变 ) 。 相 比 之 下 ,快速 的 电子 总 线 
则 需要 根据 不 同 的 负载 定位 信和 号 传输 的 目的 地 ， 因 此 快速 传输 的 总 线 并 不 支持 热 插 和 人 。 

由 于 没有 电子 触 点 造成 腐蚀 、 降 解 或 机 械 磨损 ， 因 此 这 样 的 系统 能 够 达到 高 可 靠 性 。 

但 是 ， 揪 权 卡 片 准确 无 误 的 校准 是 必需 的 ， 以 使 光线 信号 只 能 准确 地 射 中 光电 二 极 管 位 置 。 
这 要 假定 光线 是 在 空闲 区 域 中 进行 传输 的 ， 尽 管 同样 的 技术 有 可 能 会 用 于 其 他 的 光学 透明 介质 
中 ， 如 硅 酸 盐 。 


9. 7 科幻 小 说 还 是 未 来 的 现实 

或 许 本 不 该 设立 本 节 。 因 为 本 节 涉 及 的 内 容 在 现 阶 段 无 法 得 到 验证 ， 而 且 它 的 相关 知识 并 
不 被 包含 在 任何 的 教学 大 网 之 中 。 不 过 ， 不 妨 让 我 们 把 这 部 分 内 容 当成 研习 本 书 至 此 的 一 种 奖 
励 ， 也 可 以 作为 对 计算 机 科学 边缘 研究 领域 那些 令 人 叫绝 的 想法 的 惊 鸿 一 管 。 
9.7.1 分 布 式 计算 

正如 前 言 中 提 及 的 那样 ， 计 算 领 域 正在 变 得 越 来 越 嵌 入 式 。 有 趣 的 是 ， 这 种 变化 与 无 线 连接 
的 趋势 相 一 致 。 随 着 科技 的 进步 ， 人 们 慢 慢 得 到 了 一 个 逻辑 聚集 点 ， 这 个 聚集 点 关注 这 样 的 一 个 
未 来 ， 即 未 来 通过 无 线 网 络 相连 的 微型 化 处 理 单 元 在 数量 上 将 是 人 口 数量 的 数 干 倍 。 尽 管 这 些 
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处 理 器 将 被 专用 于 不 同 的 功能 〈 如 微波 处 理 恬 、 电 话 处 理 器 、 中 央 供 暖 \ 空 调处 理 需 等 ) ， 然 而 
在 给 定 的 时 间 内 ， 它 们 极 有 可 能 不 需要 执行 其 原 有 的 功能 〈 即 处 于 空闲 状态 ) 。 

简单 地 允许 空闲 处 理 器 进行 通信 和 合作 带 来 的 集合 计算 能 力 比 现 阶段 台式 机 的 计算 能 力 要 
强 上 好 几 个 数 其 级。 通过 提出 新 形式 的 人 机 接口 并 提高 软件 水 平 ， 我 们 可 以 期 待 在 未 来 能 够 与 
自己 专用 的 计算 机 特征 进行 交互 操作 。 这 种 特征 会 被 设置 在 一 系列 不 断 变 化 的 处 理 器 中 ,但 是 
会 给 用 户 提供 一 个 一 致 的 接口 。 这 将 会 是 一 个 分 布 式 的 程序 ， 可 以 进行 远程 访问 ， 可 以 作为 我 们 
的 私人 助理 。 

这 听 起 来 像 科技 小 说 吗 ? 其 实 基础 技术 现 阶段 已 经 存在 了 。 


9.7.2 湿 件 (大 脑 ) 


假设 更 进 -- 步 进入 科幻 小 说 的 领域 ， 如 果 基 因 技 术 和 生物 计算 持续 进步 ， 我 们 将 在 下 一 个 
十 年 内 开始 看 到 在 生物 机 器 上 进行 的 计算 。 

如 果 我 们 考虑 到 现存 的 最 复杂 、 能 力 最 强 的 计算 机 是 在 我 们 的 头脑 中 ， 我 们 就 会 发 现 前 面 
的 预测 并 非 牵 强 附 会 。 另 外 ， 随 着 医疗 分 析 技 术 的 进步 ， 越 来 越 多 的 关于 人 类 和 哺乳 动物 大 脑 运 
作 方 式 的 细节 被 揭露 出 来 。 这 里 吸引 人 的 地 方 在 于 计算 能 力 : 尽管 有 着 数 十 年 的 发 展 ， 然 而 人 类 
还 没有 发 明 出 具有 人 类 自身 大 脑 能 力 的 计算 机 ， 除 了 在 快速 的 固定 计算 任务 这 一 领域 。 而 在 几 
平 所 有 其 他 方面 的 比较 中 ， 人 【 蓉 至 哺乳 动物 ) 的 大 脑 都 取得 了 胜利 。 既 然 大 自然 已 经 设计 了 
如 此 令 人 称奇 的 生物 计算 机 器 ， 那 么 也 许 我 们 可 以 模仿 这 种 设计 ， 或 者 直接 驾驭 它 。 

我 们 可 以 在 这 里 确定 几 个 潜在 的 未 来 。 最 简单 的 一 个 是 生物 或 者 化 学 的 构筑 模块 将 被 用 于 
执行 计算 。 一 些 像 人 造 生物 计算 机 之 类 的 东西 将 基于 人 脑 的 结构 进行 设计 ， 它 的 处 理 过 程 将 在 
人 造 生物 神经 细胞 上 运行 。 至 少 一 种 生物 晶体 管 〈 控 制 开 关 ) 已 经 经 过 论证 ， 因 此 我 们 知道 逻 
辑 功能 是 可 能 实现 的 。 然 而 ， 与 简单 地 将 使 用 硅 的 方法 复制 到 生物 结构 中 相 比 ， 新 型 结构 也 许 会 
更 加 适合 生物 计算 。 举 例 来 说 ， 模 糊 联 想 集 (fuzzy associative set) 不 等 同 于 离散 二 进 制 计算 。 

第 二 个 洪 在 的 未 来 是 人 脑 的 功能 将 随 着 人 工 智能 的 加 人 而 加 强 。 使 用 电子 传感器 和 刺激 器 
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直接 与 人 脑 和 神经 系统 交互 ， 这 种 技术 已 经 存在 几 十 年 了 ， 如 用 于 盲人 的 视觉 系统 和 用 于 听力 
受 损 的 耳蜗 植 人 技术 。 很 容易 想象 ， 我 们 可 以 通过 设置 一 种 协 处 理 器 来 实现 计算 机 单元 与 人 脑 
的 连接 。 这 样 至 少 可 以 对 经 常 出 现 的 有 关 人 机 交互 的 课题 有 所 帮助 。 

就 个 人 而 言 ， 作 者 很 喜欢 自己 大 脑 的 工作 方式 ， 但 是 用 自然 发 展 的 眼光 来 看 ， 正 在 发 展 的 人 
工 神经 网 络 可 以 帮助 残疾 人 ， 包 括 学 习 有 障碍 的 人 ， 进 而 扩展 到 帮助 那些 健全 的 人 。 这 种 增强 方 
式 可 能 会 有 很 多 形式 ， 但 是 会 包括 一 种 用 于 真实 游戏 体验 的 更 高 带宽 的 计算 机 接口 ， 一 种 记忆 
唤醒 装置 或 者 感受 超越 五 感 (视觉 、 听 觉 、 嗅 觉 、 触 觉 、 味 觉 ) 的 一 种 感觉 。 一 旦 一 种 可 以 与 
人 脑 相 兼容 的 接口 技术 得 到 解决 ， 那么 进步 的 可 能 性 将 是 无 限 的 ， 不 过 真正 的 进步 主要 在 于 发 
展 人 造 全 生物 计算 机 (这 至 少 意味 着 你 不 需要 到 哪儿 都 带 着 电池 ) 。 


9.8 小 结 


在 本 章 中 ,我 们 探究 了 未 来 计算 机 的 方向 。 一 开始 我 们 讨论 了 一 些 比较 靠 谱 的 预测 ， 例 如 单 
比特 体系 结构 、VLIW 、 并 行 和 异步 系统 ( 靠 谱 在 这 里 指 的 是 一 个 既定 的 技术 , 已 经 与 我 们 关系 
密切 ， 尽 管 近期 主要 限于 专门 的 处 理应 用 ) 。 并 行 处 理 已 经 提 上 Intel 未 来 的 议程 : 双核 、 四 核 和 
八 核 处 理 器 已 经 实现 ， 不 难 想 象 这 一 趋势 将 继续 延续 下 去 。 大 规模 并 行 计算 也 是 一 个 靠 谱 的 预 
测 ， 因 为 我 们 大 多 数 人 已 经 感受 到 这 样 的 计算 给 世界 带 来 的 好 处 。 

本 章 概述 了 数字 格式 上 可 能 的 变化 ， 这 些 替 代表 示 方 法 不 仅 对 专门 的 计算 领域 有 重要 影响 ， 
而 且 可 能 会 影响 未 来 的 主流 计算 。 

除 此 之 外 ,我 们 认为 ， 尽 管 光电 混合 成 为 可 行 的 技术 已 有 二 十 多 年 ， 但 它 还 没有 对 计算 机 志 
界 产生 任何 重大 影响 。 

最 后 是 科幻 小 说 。 实 事 求 是 地 说 ， 科 幻 小 说 是 一 条 引领 科学 和 工程 研究 发 展 的 途径 。 无 论 是 
声波 螺丝 刀 和 时 光 机 器 ， 向 量 阵列 和 星 舰 企业 (Starship Enterprise) 的 运输 机 ， 还 是 《是 球 大 
战 》 中 的 机 器 人 和 激光 剑 ， 大 多 数 工程 师 都 会 受到 那些 技术 幻想 的 启发 。 让 我 们 尝试 和 维护 那 
些 很 “ 酷 ” 的 技术 因素 ， 如 果 说 有 自我 意识 的 计算 机 可 能 有 点 非 我 们 力所能及 ， 但 我 们 还 是 可 
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在 学 校 里 大 多 数 人 学 习 国际 单位 制 (简称 SI) ， 其 中 单位 前 缀 是 10 的 寡 ， 例 如 毫米 表示 


10” 米 ， 厘 米 表示 10 “ 米 ， 公 里 表示 10" 米 。 


下 表 是 一 些 常 用 的 前 缀 ; 








前 绎 名 称 前 缀 字母 倍率 
exa E 10!8 
peta P 105 
tera 了 1022 
Biga C 10? 
mega M 10° 
kilo k 10? 
mill m 1073 
micro 刀 107 
nano n 10 
pico Pp 10 -2 











然而 ， 当 遇 到 以 2 为 底 的 震 方 (如 2,， 4,8，16，32，64 等 ) 结构 来 表示 计算 机 内 存 大 小 的 
情况 时 ， 国 际 单位 制 不仅 不 方便 ， 而 且 还 容易 混淆 。 
由 于 2 的 实际 值 为 1024 ， 非 常 接近 1000， 因 此 2" 已 经 被 当做 “ 千 ”(kilo) 来 使 用 。 所 
以 ， 通常 使 用 的 1kbyte 实际 上 是 1024byte， 而 不 是 国际 单位 制 中 的 “ 千 ”。 尽 管 这 个 差异 在 日 
常 使 用 中 不 会 造成 不 便 ， 但 确实 有 很 多 场合 需要 更 加 精确 ， 而 且 在 这 些 场合 这 种 非 国 际 单位 


制 的 使 用 会 造成 混淆 。 


因此 ， 国 际 电工 委员 会 (IEC) 引入 了 一 种 新 的 、 非 歧义 的 计算 机 数据 存储 术语 集 。 该 术语 
集 与 国际 单位 制 相似 ， 但 是 也 有 区 别 。 在 计算 机 可 用 的 数据 大 小 范围 内 ， 有 以 下 前 级 : 





前 缀 名 称 前 缀 字母 倍率 
exbi Ei 2% 
pebi Pi 250 
tebi Ti 240 
gibi Gi 2 
mebi Mi 220 
kibi Ki 21 








因此 ， 如 果 一 台 计 算 机 硬盘 的 容量 有 1TiB (tebibyte) ， 那 么 实际 上 它 包含 1 099 511 627 776byte， 
比 1 TB (terabyte) 的 硬盘 容量 (有 即 1 000 000 000 000byte) 多 出 近 10% 。 
IEC 单位 制 得 到 了 IEEE 和 其 他 一 些 机 构 的 认可 ， 在 本 书 中 也 得 以 采用 。 
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示例 
128 Kibyte 
128KiB 
128Kibibyte 
相当 于 : 128 x2" =131 072byte 


20Mibyte 

20MiB 

20Mebibyte 

相当 于 : 20 x2” =20 971 520byte 


5300Pibyte 

S00PiB 

SOOPebibyte 

448 相当 于 : 500 x2” =562. 96 x 10" byte 


| 附录 B 


Computer Architecture: An Embedded Approach 


开放 系统 互 连 模型 





B. 1 引言 


开放 系统 互 连 〈0SI) 模型 或 参考 系统 ， 首 先 由 国际 电信 联盟 (ITU) 的 开放 系统 互 连 
(0ST) 组 提议 ， 然 后 作为 建议 X. 200 与 国际 标准 化 组 织 (ISO) 联合 推出 ， 成 为 一 种 计算 机 互 连 
分 层 方 法 。 

现在 我 们 知道 很 多 名 词 的 缩写 ， 我 们 使 用 缩写 “0SI” 代 表 该 模型 。0SI 模型 由 许多 的 层次 
构成 ， 这 些 层次 被 用 于 划分 计算 机 互 连 中 的 逻辑 连接 性 和 功能 。 每 个 层次 可 以 由 层 号 或 层 的 名 
字 来 标识 ， 我 们 将 在 下 文中 提 到 。 

OSI 模型 普遍 适用 于 网 络 连接 协议 ， 但 是 在 本 书 中 ， 我 们 仅 使 用 这 个 模型 的 “低层 "” ， 也 就 
是 那些 更 接近 于 硬件 的 层次 。 特 别 用 它 来 讨论 通信 和 总 线 系统 ， 从 低层 硬件 和 电压 细节 中 分 离 
出 诸多 协议 。 

对 于 不 太 了 解 0SI 模型 的 读者 来 说 ， 这 种 分 层 方 法 看 起 来 似乎 有 点 不 必要 。 然 而 ， 可 以 肯定 
的 是 ， 当 事情 变 得 复杂 的 时 候 ， 特 别 是 在 能 入 式 系统 中 ， 这 种 分 层 方 法 确实 简化 了 系统 设计 和 理 
解 ， 因 此 我 们 在 这 里 做 简要 的 介绍 。 





B.2 OSI 层次 


基本 的 0SI 模型 包含 7 个 水 平 堆 全 的 层次 。 从 底 向 上 ， 它 依次 包含 了 从 比特 级 的 信号 到 使 用 
该 信号 的 各 应 用 的 所 有 内 容 (例如 跨越 了 从 1000BASE-T 以 太 电费 上 的 电压 变化 到 一 个 互联 网 银 





行 系统 上 的 所 有 中 间 步 又) 。 
OSI 层次 层次 名 称 数据 单元 
7 应 用 层 数据 
6 表示 居 数据 
5 会 话 层 数据 
4 传输 层 段 
3 网 络 层 包 
2 数据 链 路 层 由 
1 物理 层 比特 








0SI 模型 的 思想 是 每 层次 只 与 该 层次 在 堆栈 中 紧邻 的 上 下 两 个 层次 通信 ， 并 且 通 信和 方式 也 被 
严格 定义 。 因 此 ， 每 个 层次 的 开发 者 仅仅 需要 关心 与 相 邻 层次 的 通信 即 可 。 这 样 的 细 分 使 得 我 们 
在 通信 中 有 更 多 的 规律 可 循 ， 并 且 在 理论 上 有 更 高 的 可 靠 性 。 

第 1、2 和 3 层 与 传输 介质 有 关 ， 而 第 4 ~7 层 被 称 为 主机 层 。 低 层次 更 倾向 于 由 硬件 实现 ， 
而 高 层次 则 倾向 于 由 软件 实现 (有 人 可 能 会 说 代码 量 也 会 自 底 向 上 递增 )。 接 下 来 ， 我 们 将 对 介 
质 层 逐一 进行 分 析 。 





加 TCP/P 分 层 模 型 和 OSI 模型 应 用 了 相同 的 原理 ， 仅 在 分 屋 方 法 和 层次 命名 上 有 所 不 同 。 
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第 1 层 : 物理 层 


物理 层 包 括 了 一 个 单元 与 某 个 通信 介质 的 电气 连接 ， 例 如 ， 数 据 总 线 中 的 电线 、 时 序 和 电 
压 。 物 理 层 负责 确保 通信 单元 能 够 与 传输 介质 “对 话 ” 和 “监听 ”( 这 种 传输 包括 有 线 传输 、 无 
线 传输 、 光 纤 传 输 等 ) 。 

这 -一 层 负责 建立 与 介质 的 连接 ， 且 参与 到 调度 中 使 得 不 同 单元 能 共享 传输 介质 〈 在 适当 的 时 候 )， 
同时 将 传输 出 去 的 信号 从 逻辑 比特 转化 成 介质 所 期 望 的 格式 ， 并 将 收 到 的 信号 转化 为 逻辑 比特 。 

基本 上 ， 物 理 层 将 来 自 数据 链 路 层 的 通信 逻辑 请 求 转化 为 具体 的 硬件 传输 或 信号 接收 。 在 
计算 机 网 络 中 ,处 理 物理 层 信 息 的 设备 往往 被 称 做 “PHY”。 


第 2 层 : 数据 链 路 层 


数据 链 路 层 ( DLL) 在 物理 层 的 物理 通信 的 基础 上 ， 规 定 了 一 种 点 对 点 或 〈 多 ) 点 对 多 点 的 结 
构 。 通常 ， 它 要 求 对 物理 层 中 发 生 的 错误 做 纠 错 处 理 ， 从 而 为 网 络 层 提 供 一 种 无 错 的 帧 接口 。 

实际 上 ， 数 据 链 路 层 有 两 个 子 层 : 介质 访问 控制 (MAC) 子 层 和 逻辑 链 路 控制 〈《LLC) 子 
层 。 如 果 这 两 层 都 存在 ， 那 么 MAC 面向 物理 层 接口 而 LLC 面向 网 络 层 接口 。MAC 层 将 需要 传输 
的 数据 以 帧 的 格式 封装 起 来 ， 校 验收 到 的 数据 ， 并 在 传输 介质 被 多 个 单元 共享 的 情况 下 提供 促 
裁 、 流 其 控制 等 功能 。 而 LLC 层 为 更 高 层 提供 纠 错 和 流量 控制 等 功能 。 

一 些 物 理 (PHY) 设备 同样 也 包含 一 个 MAC 层 ， 由 此 这 种 设备 被 称 为 “MACPHY” 设 备 。 


第 3 层 ， 网 络 层 


网 络 层 允 许 传 输 和 接收 任意 大 小 的 数据 包 。 网 络 层 的 通信 是 端 对 端的 ， 因 为 网 络 层 可 以 向 
(从 ) 一- 个 特定 的 接收 者 发 送 (接收 ) 数据 包 。 而 实际 实现 这 些 请 求 则 是 较 低 层 的 功能 。 


第 1 ~3 层 ， 以 及 其 他 层 


在 网 络 层 之 上 的 层 被 称 为 主机 层 。 它 们 负责 在 特定 的 主机 之 间 传 输 大 基 的 信息 ， 建 立 和 维 
护 主机 之 间 的 通信 会 话 ， 人 允许 不 同 的 信息 共享 链接 并 且 提 供 到 同一 个 特定 应 用 的 接口 。 尽 管 这 
些 对 于 基于 因特网 的 应 用 非常 重要 ， 但 是 它们 往往 不 属于 典 人 式 计 算 机 体系 结构 的 领域 ， 因 此 
我 们 更 关注 底下 三 个 层次 。 

举 一 个 0SI 系统 中 的 例子 ， 考 虑 一 个 即将 被 传送 的 数据 包 。 它 与 地 址 信息 一 起 被 传送 到 数据 
链 路 层 ， 从 而 指明 该 数据 包 要 去 哪里 。 数 据 链 路 层 将 收 到 的 信息 分 割 成 帧 ， 也 许 会 在 将 信息 以 比 
特 的 形式 传 给 物理 层 之 前 对 它 进行 加 密 ， 然 后 交 给 物理 层 传输 。 紧 接着 、 物 理 层 会 以 一 个 给 定 的 
时 序 ， 通 过 在 线路 上 驱动 高 低 电 压 来 调制 线路 从 而 以 并 行 或 串 行 的 方式 传送 数据 。 


B. 3 小 结 


本 书 主要 在 6.3 节 介绍 了 几 个 第 1 层 的 例子 ， 包 括 LVDS、FIA232 等 。 我 们 同时 也 讨论 了 一 
到 两 个 第 2 层 的 例子 ， 例 如 以 太 网 。 然 而 ， 我 们 讨论 的 很 多 总 线 系统 ， 如 USB 、SCSI 等 ， 实 际 上 
同时 包含 了 模型 的 低 两 个 或 三 个 层次 。 

最 重要 的 一 点 是 ， 尽 管 诸如 EIA232 和 USB 系统 定义 了 物理 层 的 连接 ， 但 是 0SI 模型 分 层 抽 
象 使 得 它们 都 能 透明 地 给 高 层 传输 任何 它们 想 要 的 信息 。 例 如 ，EIA232 和 USB 都 能 使 一 台 PC 
连接 到 因特网 并 传送 TCP/IP 数据 包 ( 这 反 过 来 可 以 传送 超 文 本 传输 协议 即 HTTP 网 页 ) 。USB 也 
可 以 传送 文件 给 拇指 驱动 器 (thumb drive) ， 或 与 外 部 音频 硬件 之 间 传 送 音频 数据 。 

正 是 这 种 灵活 性 一 抽象 成 为 层 的 思维 方式 一 -成 为 了 许多 现代 系统 的 特征 ， 尤 其 是 当 网 
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Computer Architecture: An Embedded Approach 


探索 cache 大 小 和 结构 安排 的 权衡 设计 方法 





C.1 引言 


本 附录 将 介绍 两 个 用 来 评估 和 调查 cache 配置 的 软件 工具 Dinero 和 Cacti 的 使 用 .Cacti 是 
一 个 描述 cache 访问 时 间 、 时 钟 周期 时 间 、 区 域 、 长 宽 比 和 功 耗 的 综合 模型 。 计 算 机 体系 结构 
设计 师 利 用 Cacti 模型 可 以 更 好 地 理解 cache 不 同 大 小 和 结构 安排 所 带 来 的 性 能 权衡 。Dinero 
是 一 个 跟踪 驱动 cache 的 模拟 器 ， 它 用 输入 来 跟踪 cache 的 设计 参数 ， 以 确定 cache 的 性 能 
(主要 测 基 cache 的 命中 率 ) 。 一 次 跟踪 就 是 由 一 个 程序 所 访问 的 内 存 序 列 (包括 指令 和 数据 
存储 器 ) ， 或 者 是 由 程序 的 解释 执行 得 到 的 内 存 序 列 ， 或 者 是 由 编译 器 向 程序 调 人 调试 代码 得 
到 的 内 存 序列 。 

惠普 人 研究 院 的 Premkishore Shivakumar 、Norm Jouppi 以 及 Mark Hill 和 Jan Edler 分 别 是 Cacti 和 
Dinero 的 作者 ， 制 作 和 发 布 了 这 两 个 工具 。 需 要 注意 的 是 ，Dinero 和 Cacti 都 是 有 版 权 的 软件 而 
不 是 开源 代码 。 尽 管 如 此 ， 两 个 软件 的 作者 允许 这 些 代码 用 于 非 商 业 和 学 术 研 究 。 


C.2 准备 工作 

同 本 书 中 的 其 他 例子 一 样 ， 假 设 读者 已 经 访问 了 一 个 运行 Linux 的 标准 计算 机 。 虽 然 本 书 作 
者 倾向 于 Kubuntu 或 者 Mandrake， 但 其 实 目前 任何 版 本 的 操作 系统 都 已 经 足够 了 。 也 可 以 在 〈 虽 
然 可 能 并 不 容易 ) Microsoft Windows 下 的 Mac0S-X 和 Cygwin 上 运行 这 些 工具 。 所 有 的 “行为 ” 
都 可 以 在 命令 行 上 实现 。 

1. 从 下 面 的 网 址 下 载 Cacti 3. 2: 

http:/www. hpl. hp. com personal/ Norman_Jouppi/ cacti4. html 

所 需 的 文件 是 cacti3. 2. tar.gz， 可 以 在 有 关 Cacti 3. 2 的 章节 中 名 为 gzip ed 压缩 文件 的 超 链接 
下 找到 。 也 可 以 使 用 互联 网 搜索 引擎 来 寻找 这 个 文件 的 其 他 信息 库 。 

2. 从 下 面 的 分 布 源 下 载 Dinero NV : 

http:/ www. es. wisc. edu/ markhill/ Dinero VY 

所 需 的 文件 是 d4-7.targz， 它 位 于 标记 为 Wisconsin 的 链接 下 。 这 个 文件 也 可 以 通过 互联 网 搜 
索引 擎 找到 。 

还 有 一 个 可 用 的 在 线 版 Cacti， 位 于 : 


http:/www. ece. ubc. ca ~ stevew/ cacti/ 


C.3 安装 Cacti 和 Dinero 


1. 将 源 文 件 (cacti3. 2. tar. gz 和 4-7. tar gz) 拷贝 到 一 个 工作 目录 下 。 
2. 建立 Cacti。 


创建 一 个 名 为 cacti 的 新 文件 夹 : 





名 我们 介绍 的 Dinero 了 和 Cacti 3.2 会 随 着 时 间 而 更 新 ， 因 此 基体 的 选项 和 指令 可 能 会 有 所 改变 ， 但 是 对 性 能 的 研 
究 依然 是 有 效 的 。 
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mKGIr cacti 

cd cacti 

tar xvzf ../cacti3.2.tar.gz 
make 


这 会 产生 Cacti 可 执行 文件 。 

cd ../ 

3. 建立 Dinero: 

tar xvzf d4-7.tar.gz 

该 操作 会 生产 一 个 名 为 d4-7 的 子 文件 夹 。 


cd d4-7 
/configure 
make 
这 会 产生 Dinero 及 可 执行 文件 。 
cd ../ 
C.4 工具 的 使 用 


下 面 进行 一 个 实验 ， 来 说 明 使 用 Cacti 和 Dinero 设计 不 同 的 指令 cache 和 数据 cache， 就 像 设 
计 租 入 式 处 理 器 cache 一 样 。 指 定 每 一 个 cache 的 限制 区 域 ， 使 得 在 运行 测试 程序 时 cache 达到 效 
率 最 大 化 。 

首先 ， 我 们 来 介绍 一 下 要 使 用 到 的 设计 流程 。 

1. Cacti 可 以 用 来 “创建 ”一 个 cache， 


-/cacti/cacti C BAxXY 


其 中 C 代表 以 字 节 为 单位 的 cache 的 大 小 〈 即 它 的 容量 ) ，B 是 块 大 小 ，A 代表 关联 性 。 在 
这 种 情况 下 ， 我 们 将 设置 X=Y=1l。 

2. 可 以 给 定 一 个 样本 cache 的 B 和 C 参数 ， 在 其 上 运行 Cacti。 请 注意 ， 在 运行 过 程 中 Cacti 
会 产生 很 多 信息 。 搜 寻 这 些 信 息 ， 可 以 看 到 一 个 名 为 “Total area One subbank” 的 输出 域 ， 这 就 
是 样本 cache 将 要 占用 的 区 域 。 

3. 通常 ， 需 要 设计 几 个 采用 不 同 输入 参数 的 cache， 在 每 一 种 情况 下 ， 记 下 每 个 设计 的 
cache 区 域 。 

4. 使 用 下 面 的 命令 〈 都 在 同一 行 上 ) 运行 Dinero NV: 

./d4-7/dinerolV cache-config -informat p 

< d4-7/testing/mm.32 

其 中 cache-config 即 缓存 配置 是 下 面 两 行 之 一 : 


对 于 Icache: -11-isize capacity -11-ibsize block-size 
-11-iassoc associativity 





对 十 D-cache: -11-dsize Capacity -ll-dbsize block-size 

-ll-dassoc associativity 

-1]11 是 指 1 级 ，- size 表示 指令 cache 的 大 小 ，- dassoc 是 指数 据 cache 的 关联 性 。 输 入 的 
mm.32 是 在 cache 上 运行 的 测试 文件 ， 它 包含 在 Dinero W 的 包 中 。 

如 果 在 样本 cache 上 运行 Dinero KW 〈 从 第 二 项 开始 ) ， 通 过 测试 程序 同样 会 产生 很 多 的 信息 。 
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Dinero K 可 以 同时 模拟 指令 cache 和 数据 cache。 因 此 ， 为 了 防止 混淆 ,我 们 需要 分 开 来 看 〈 因 
为 我 们 将 以 缺失 率 来 作为 衡量 性 能 的 标准 ， 所 以 每 一 个 cache 需要 独立 工作 一 一 除非 它们 必须 共 
享有 限 的 区 域 份额 。 有 关 这 方面 的 重要 信息 见 名 为 “Total Demand misses” 的 域 ) 。 

5. 需要 记录 下 不 同 cache 设计 的 总 的 需求 缺失 率 ， 以 达到 通过 改进 和 尝试 不 同 的 cache 来 探 
索 权 衡 设 计 的 目标 。 


C. 5 不 同 cache 设计 方案 的 实验 

为 了 说 明 如 何 使 用 这 些 工 具 ， 将 规定 每 个 cache 的 区 域 大 小 不 超过 0. 9cm*。 对 于 那些 想 要 将 
硅 片 面积 分 配 在 集成 电路 上 的 “真正 的 ”CPU 设计 者 来 说 ， 这 是 一 种 求实 的 态度 。 对 于 为 FPGA 
软 核 处 理 器 设 定 cache 内 存 的 FPGA 设计 者 来 说 ， 这 同样 是 一 种 求实 的 态度 一 一 我 们 相信 本 书 的 
读者 会 经 常 看 到 这 样 一 种 态度 。 在 这 种 情形 下 ， 每 种 不 同 的 使 用 情况 会 有 不 同 的 平方 厘米 大 小 ， 
但 是 权衡 设计 的 理念 不 会 改变 。 

假设 采用 哈佛 体系 结构 ( 见 2.1.2 节 ) ,我 们 将 建立 两 种 cache: I- cache 和 D-cache。 我 们 调 
整 设计 的 参数 来 获得 cache 的 最 佳 性 能 〈 用 总 缺失 数 来 衡量 ， 即 上 +D._)。 

每 个 cache 的 参数 会 有 所 不 同 : cache 的 大 小 ， 关 联 性 和 块 大 小 。 这 些 参 数 定义 了 一 个 多 维 
的 设计 探索 空间 。 一 个 穷尽 测试 应 该 试 遍 所 有 组 合 方式 (但 是 ， 那 就 是 筋疲力尽 而 不 是 穷尽 
了 )。 因 此 ， 可 行 的 方法 是 运行 一 些 设计 来 确定 不 同 参数 造成 的 探索 空间 的 不 同 结果 ， 随 后 “ 缩 
小 ”出 最 佳 的 设计 方案 。 

在 这 种 情形 下 ， 可 以 通过 限定 可 使 用 的 参数 值 来 简化 测试 。 首 先 ， 只 用 2 的 需 值 (例如 1， 
2，4，…，8192 等 )。 其 次 ， 给 予 特定 的 大 小 ， 根 据 一 些 经 验 限定 的 关联 性 最 大 值 为 32， 块 大 小 
应 该 在 8 ~64 字 节 范围 内 。 使 用 这 个 工具 时 ， 其 他 的 一 些 值 可 以 放心 地 舍弃 。 

在 指定 的 cache 上 运行 追踪 文件 mm.32 时 ， 总 的 cache 面积 和 总 缺失 数 将 作为 数据 cache 以 
及 指令 cache 的 设计 指标 。 在 一 个 媒人 式 系 统 中 ， 可 以 指定 一 个 “真正 的 ”追踪 文件 ， 这 个 文件 
可 以 从 运行 在 系统 中 的 代码 得 到 。 

因此 ， 在 给 定 的 面积 限制 下 ， 可 以 在 实际 运行 的 软 、 硬 件 上 寻求 到 最 佳 的 cache 设计 。 


C.6 cache 设计 中 的 进一步 信息 

以 下 是 一 些 有 用 的 建议 ， 可 以 对 cache 的 设计 过 程 有 所 帮助 。 

建议 1: 首先 ， 确 定 那些 对 cache 产生 最 大 面积 限制 的 参数 组 合 。 它 们 中 的 一 个 有 可 能 是 最 
佳 性 能 的 解决 方案 。 

建议 2: 由 于 我 们 只 将 缺失 数 作为 性 能 的 主要 标准 ， 两 个 cache 性 能 的 测量 又 是 相互 独立 的 ， 
因此 ， 要 分 别 在 I-cache 和 D-cache 上 运行 Dinero ( 即 运行 只 有 一 个 指定 L eache 的 Dinero ， 再 运 
行 只 有 一 个 指定 D- cache 的 Dinero; 将 结果 结合 在 一 起 就 相当 于 运行 了 同时 指定 工 cache 和 D- 
cache 的 Dinero) 。 如 果 考 虑 其 他 的 性 能 测量 方法 ， 则 可 以 结合 cache 的 研究 过 程 。 

建议 3: Cacti 和 Dinero 了 都 有 readme 文件 ， 可 以 提供 信息 。 而 且 ，Dinero 有 内 置 帮助 : 

./dineroIV -help 


在 本 附录 中 ， 需 要 认识 到 的 是 ,我们 忽略 了 几 个 在 真实 世界 中 的 性 能 指标 。 最 重要 的 是 
cache 的 访问 时 间 (由 Cacti 报告 的 每 次 访问 时 间 ) ， 它 会 随 着 设计 参数 的 改变 而 改变 并 影响 程序 
的 执行 速度 ， 和 cache 缺失 率 一 样 ， 对 cache 而 言 都 很 重要 。 

此 外 ， 尽 管 Cacti 和 Dinero 了 中 参数 的 缺 省 值 是 合理 的 设 定 ， 但 在 现实 世界 中 ， 还 需要 根据 
硅 的 特征 尺寸 和 硅 的 制作 工业 标准 来 设 定 ， 或 者 分 别 根据 FPGA 设计 参数 来 设 定 。 
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在 现实 世界 里 ， 还 可 能 要 调整 一 些 参 数 ， 比 如 带宽 和 时 钟 速度 。 
本 附录 以 一 种 谨慎 的 态度 、 准 确 地 描绘 了 cache 的 权衡 设计 方法 。 说 明了 如 何 使 用 Cacti 和 
Dinero 在 真正 的 约束 下 探索 设计 空间 和 确定 最 佳 的 cache 设计 。 


思 汰 题 

C.1 根据 设计 空 何 的 测试 方案 的 顺序 ， 完 成 表 C-1 的 内 容 ， 从 而 确定 工 好 的 缓存 设计 。 
C.2 解释 cache 的 设计 参数 与 cache 的 区 域 面积 在 整个 设计 空间 中 是 如 何 相 关联 的 。 
C.3 提供 一 个 理由 ， 证 实 你 所 观察 到 的 。 

C.4 可 以 到 达 表 C-1 中 最 佳 解 决 方案 的 %5 名 性 能 的 最 小 cache 区 域 是 多 少 ? 


表 C-1 缓存 权衡 设计 参数 记录 表 





缓存 D | ”缓存 缓存 D 
大 小 “| 块 的 大 小 | 块 的 关 | 大 小 “| 块 的 大 小 | 块 的 面积 面积 
( 字 节 ) | ( 字 节 ) | 联 和 值 | ( 字 节 ) | ( 字 节 ) | 关联 值 | 衬 六 刘涛 ) (平方 厘米 } 
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| 附录 DD 


Computer Architecture, An Embedded Approach 


能 人 式 计算 机 上 的 无 线 技 术 





D.1 引言 

和 嵌入 式 计算 机 一 样 、 无 线 技术 是 一 个 非常 先进 并 旦 处 于 快速 发 展 阶 段 的 领域 。 尽 管 它 
离 计算 机 体系 结构 这 一 主题 有 点 远 , 但 由 于 越 来 越 多 的 嵌入 式 系统 需要 通过 无 线 互 连 ， 因 而 
它 在 嵌 人 式 系统 中 是 一 个 非常 重要 的 话题 。 因 此 未 来 无 线 互 连 将 像 谋 人 式 计 算 机 一 样 得 到 广 
泛 应 用 。 

大 型 计算 机 的 设计 目的 是 用 于 数值 运算 ， 而 内 人 式 系统 是 为 了 其 自身 应 用 特点 而 设计 的 。 
假如 其 设计 需求 是 连接 ， 则 必须 从 体系 结 购 的 角度 来 满足 需求 ， 正 如 大 型 计算 机 票 满足 数据 传 
输 和 处 理 需 求 一 样 。 

本 附录 目的 是 为 了 呈现 县 前 最 主要 的 无 线 连 接 系 统 。 甚 中 将 对 每 一 种 系统 进行 简要 描述 ， 
并 对 嵌 入 式 系统 中 的 相关 设备 进行 讨论 。 对 诸如 协议 栈 需求 等 也 将 进行 重点 探讨 。 

然而 ， 无 线 设 备 是 在 不 断 变化 的 一 一 数据 传输 速率 和 通信 范围 每 年 都 在 增加 而 能 耗 却 在 降 
低 。 新 设备 的 出 现 导 致 了 旧 设 备 被 淘汰 。 甚 至 当 你 读 这 个 附录 的 时 候 ， 志 界 上 某 个 角落 就 有 可 能 
诞生 了 一 种 新 的 无 线 设 各。 

本 附录 将 会 缆 盖 一 些 主 要 的 无 线 设 备 〈 和 一 些 不 常用 的 设备 )}， 并 以 设备 、 范 围 和 带宽 等 的 
总 结 表 结 束 。 附 录 的 最 后 将 会 给 出 一 个 小 的 应 用 系统 实例 ,我们 会 在 一 个 标准 的 片上 系统 处 理 
器 〈 基 于 ARM9 内 核 的 三 星 S3C2410) 上 增加 -- 个 无 线 连接 来 进行 演示 。 


D.2 802.11a, b 和 9 


JEEE 于 1999 年 底 通 过 了 著名 的 无 线 网 络 标准 一 一 802. 11b。 不 久 后 又 批准 了 802. 11a， 它 使 
用 一 种 新 的 编码 方案 - 一 正 交 频 分 复 用 技术 (OFDM) ,提高 了 数据 传输 速率 和 无 线 信道 可 用 性 。 
802. 11a 比 802. 11b 更 快 ， 在 5SGHz 频率 范围 上 支持 54Mbps 最 大 速率 ， 而 802. 11b 仅 在 2. 45GHz 
频率 范围 上 支持 11Mbps 的 最 大 速率 。 

802. 11g 的 峰值 数据 传输 速率 为 54Mbps， 听 起 来 似乎 很 快 ， 但 是 其 差不多 一 半 带 宽 消 耗 在 传 
输 开销 上 。 一 个 Wi-Fi 设备 工作 时 通常 需要 30 ~ 100mW 的 功 耗 ， 而 最 大 通信 距离 为 50 ~ 100m。 


嵌入 式 系统 802. 11a/b/g 解决 方案 


当前 一 些 支持 单 芯片 802. 11a/b/g 的 Wi-Fi 解决 方案 包括 : 

。 Atheros 有 很 多 用 于 固定 与 移动 应 用 的 设备 (如 ARS4xx 系列 一 FBGA®; 13mm x 
13mm ) 。 

Broadcom BCM 4xxx 和 5xxx 系列 设备 (如 BCM4328 一 一 PBCA: 10mm x 10mm)。 

CSR 的 UniFi 系列 (如 WLCSPS 中 的 UF6026: 3.7mm x4.2mm)。 

德州 仪器 的 WiLink 4.0/5.0/6.0 版 本 《如 WL1253 一 一 BGA: 6mm x6mm)。 





FBCA， 细 问 距 球 般 阵列 (fine piteh ball grid array) . 
可 LCSP， 晴 加 级 芯片 规 槛 冉 装 技术 〈wafer-level chip scale packaging) ， 


Do 
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D.3 802. 11n 


802. 11n 草案 的 产品 已 经 出 现在 市 场 上 并 且 嵌 入 到 许多 消费 类 设备 中 。 据 称 了 正 EE 802. 11n 的 
最 大 数据 速率 为 600Mbps 并 且 保证 最 小 速率 为 100Mbps (在 减 去 协议 管理 特征 如 前 导 码 、 帧 间 
距 、 应 答 和 其 他 控制 开销 的 情况 下 ) 。 它 使 用 的 是 多 输 和 人 多 输出 〈MIMO) 技术 。 

目前 802. 11n 解决 方案 据 称 可 达到 300Mbps 左右 的 传输 速率 ， 通 信和 距离 为 50m。 在 这 个 速度 
下 ,访问 点 需要 通过 千 兆 级 以 太 网 设备 连接 到 基础 设施 以 保证 连接 质量 。 


诺 入 式 系统 802. 11n 解决 方案 


802. 11a/b/g 解决 方案 中 列 出 的 生产 商 以 及 以 下 生产 商都 生产 出 了 支持 802. 11n 草案 的 无 线 
局 域 网 设备 : 

e Marvell TopDog。 

e Metalink (MtW81717ZMIW8151 ) 。 

e Qualcomm/Airgo (WFB4030/ WFB4031)。 

其 中 一 些 是 使 用 多 芯片 的 解决 方案 ， 但 是 现在 通过 单 芯 片 基本 上 都 可 以 解决 。 


D.4 802. 20 


802. 20 也 称 为 移动 宽带 无 线 访 问 (Mobile Broadband Wireless Aecess，MBWA) ， 授 权 工 作 在 
3.5GHz 频段 以 下 ， 峰 速 数据 传输 速率 超过 了 1Mbps。 它 支持 多 种 移动 速度 最 高 达 250kmvh 的 车 
载 系 统 ， 在 城 域 网 (MAN) 中 通信 距离 可 以 达到 8km。 


D.5 802. 16 


802. 16 也 称 为 全 球 微 波 访 问 互 操 作 性 (Worldwide Interoperability for Microwave Access， 
WiMAX) ， 属 于 无 线 宽带 技术 ,支持 点 对 多 点 无 线 (PMP) 访问 。802. 16 作为 一 个 确定 的 无 线 标 
准 发 布 于 2002 年 ， 它 基于 视 距 (line-of-sight，LOS) 技术 ， 旨 在 向 那些 不 容易 铺设 光缆 和 铜 线 
等 基础 设施 的 地 方 提供 TIZT3 级 别 的 服务 。 

802. 16 目标 是 商业 用 户 ， 它 工作 的 许可 带宽 为 10 ~ 66GHz， 信 道 带宽 在 20MHz、25MHz 到 
28MHz 范围 ， 并 且 需 要 基站 和 用 户 之 间 的 LOS。 数 据 传 输 速率 可 以 达到 134Mbps， 但 是 通信 距离 
限制 在 基站 的 2 ~5km 范围 内 。 这 个 技术 可 以 对 工作 参数 、 频 率 带 宽 、 数 据 速率 、 范 围 等 进行 不 
同 的 配置 。 


802. 16 解决 方案 


目前 一 些 提供 支持 802. 16a/d 标准 的 芯片 组 的 生产 商 如 下 : 

es Atmel (如 AT86RFS3SB QFN-56; 8mm xgmm) 。 

® Fujitsu Microelectronics America (如 在 一 个 BGA-436 封装 中 的 MB87M3550)。 
e Intel (如 Intel PRO/Wireless 5116; PBGA-360)。 

e Sequans Communication (如 SQN1010 一 一 PBGA-420; 23mm x 23mm)。 

e TeleCIS (如 TCW1620)。 

目前 一 些 支持 802. 16e 标准 的 蕊 片 组 如 下 : 

® Aitair Semiconductor (如 ALT2150 ) 。 

e JIniel ( 如 Intel WiMAX Connection 2250: PBCA-360) 。 

。 NXP (如 UXF234XX 一 一 HVQFN48 : 7mm x 7mm) 。 
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e Runcom Technologies Ltd (如 RNA2000/RNF2000)。 
® Sequans Communication (如 SQN1130 一 一 VBGA-256: 11mm xl1lmm) 。 
e Wavesat (如 UMobile WiMAX 系列 )。 


D.6 蓝牙 


蓝牙 >， 最 初 是 由 爱立信 公司 开发 的 ， 但 现 已 成 为 世界 标准 ， 是 一 种 短 距离 通信 技术 ， 引 在 
取代 电缆 连接 的 便携 式 或 固定 设备 ， 同 时 保持 高 度 的 安全 性 。 蓝 牙 设备 可 以 在 短 距 离 内 互相 连 
接 和 通信 ， 组 成 自 组 织 网 络 ( 又 名 微微 网 ，piconet) 。 

每 个 设备 可 以 同时 与 其 他 7 个 设备 在 单一 微微 网 内 相互 通信 。 此 外 ， 每 个 设备 也 可 以 同时 属 
于 几 个 微微 网 。 微 微 网 可 以 动态 建立 并 会 在 蓝牙 设备 进入 和 离开 无 线 区 域 时 自动 启动 。 赣 牙 2.0 
设备 与 增强 型 数据 速率 (EDR) 的 组 合 于 2004 年 11 月 开始 采用 ， 速 率 可 达 3Mbps。 

蓝牙 技术 主要 应 用 于 工业 、 科 学 和 医疗 (1SM) 领域 ,工作 在 2.4 ~2.485GHz 频段 ， 主 要 有 
以 下 几 种 分 类 : 

。 三 类 无 线 工 作 范 围 为 Im 〈 最 大 发 射 功率 为 1mW)。 

。 二 类 无 线 工 作 范 围 为 10m， 经 常用 于 移动 设备 (最 大 发 射 功率 为 2. 5mW)。 

。 一 类 无 线 工 作 范 围 为 100m， 大 多 用 于 工业 领域 (最 大 发 射 功率 为 100mW ) 。 

两 个 设备 之 间 的 蓝牙 连接 有 三 种 安全 模式 : 模式 1 实际 上 是 非 安全 模式 ， 模 式 2 提供 服务 级 
强制 安全 ， 模 式 3 加 强 了 链 路 层 的 安全 。 

每 个 蓝牙 设备 在 进行 所 有 的 蓝牙 通信 时 几乎 都 会 涉及 两 个 参数 : 第 一 个 参数 是 一 个 唯一 的 
48 位 地 址 一 一 蓝牙 设备 地 址 (BD_ADDR) ， 在 生产 时 就 已 分 配 好 ， 记 录 在 蓝牙 设备 的 硬件 上 ， 
它 不 能 被 修改 ; 第 二 个 参数 是 一 个 自由 运行 的 28 位 时 钟 ， 每 312. Shs 一 个 滴答 ， 这 个 时 间 恰 好 
与 1600 次 / 秒 的 跳 频 停留 时 间 一 致 。 

在 省 电 模式 下 ， 蓝 牙 设 备 的 工作 电流 约 为 30kA， 唤 醒 和 响应 需要 消耗 几 秒 钟 的 时 间 。 通 过 
使 用 TCPZP 协议 ， 蓝 牙 设备 实际 上 可 以 跟 与 互联 网 连接 的 任何 其 他 设备 进行 通信 。 


蓝牙 解决 方案 


一 些 咎 入 式 蓝 牙 芯 片 组 如 下 : 

© Broadcom (BCM20XX)。 

e CSR (BlueCore 系列 )。 

e Infinneon (PMB8753 WFSGA-65: Smm x 5mm 和 PBA31308 ) 。 

e NXP (BGB210S——TFBGA-44: 3.0mm x5,0mm)。 

e STMicroelectronic 〈(STLC2500C 一 一 WFBCA-48: 4. 5mm x 4.Smm)。 

e Texas Instruments (BRF6300 BlueLink 5. 0 ) 。 

在 编写 本 书 时 蓝牙 3. 0 标准 已 经 提出 ， 它 的 数据 传输 速率 超过 400Mbps。 














D.7 GSM 

1982 年 ， 欧 洲 邮 政和 远程 通信 会 议 (CEPT) 成 立 了 一 个 研究 小 组 ， 负 责 为 整个 欧洲 移动 电 
话 系统 制定 一 个 标准 。 这 个 小 组 名 为 GSM ( GroupeSpeciale Mobile ) 。GSM 小 组 在 1989 年 演变 为 
欧洲 电信 标准 协会 (ETSI) 。 





加” 蓝牙 是 以 传奇 的 10 世纪 挪威 国王 命名 的 ， 他 把 遥远 的 斯 堪 的 纳 维 亚 部 落 统一 成 - -个 团结 的 王国 。 大 概 是 为 了 彰 
显 爱立信 向 诺基亚 进军 的 野心 。 
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“GSM” 缩 写 的 含义 已 从 “GroupeSpeciale Mobile” 改 成 了 “Global System for Mobile Communi- 
cations”( 这 是 为 了 展示 这 个 欧洲 标准 要 成 为 全 世界 标准 的 雄心 ) 。CSM 是 当前 使 用 范围 最 广泛 
的 手机 系统 : 一 种 开放 的 数字 蜂窝 技术 ， 用 于 传输 移动 语音 和 数据 服务 。 它 被 归 类 为 第 二 代 
(2G) 蜂 窜 移 动 通信 系统 。 

虽然 CSM 极 适合 语音 通信 ， 但 是 它 仅 支持 9. 6kbps 的 本 地 数据 传输 速率 。 它 的 基本 数据 传 
输 服务 SMS ( 短 消息 服务 ) 可 以 同时 发 送 140 个 字 节 ,或 在 通常 方式 下 将 数据 挤 在 一 起 ， 允 许 
发 送 160 个 ASCH 字符 (140 x8 位 /7 位 )。 

GSM 带 有 中 等 水 平 的 安全 设计 。 它 使 用 共享 密 钥 加 密 (shared-secret eryptography) 的 方法 验 
证 用 户 。 用 户 与 基站 之 间 的 通信 可 以 被 加 密 。GSM 只 对 使 用 GSM 网 络 的 用 户 进行 身份 验证 〈 反 
之 则 不 然 ) 。 因 此 ， 这 种 安全 机 制 虽然 提供 保密 性 和 身份 验证 ， 但 仅 限 于 有 限 的 授权 ， 并 且 没 有 
不 可 否认 性 〈non-repudiation ) 。GSM 针对 安全 性 所 使 用 的 几 种 加 密 算 法 虽然 理论 上 强度 合适 ， 
但 是 还 是 可 以 通过 一 些 方法 破解 。 


GSM 解决 方案 


下 面 列 出 了 一 些 目前 使 用 的 GSM 芯片 组 : 

e Broadcom (如 BCM2124 一 一 FBGA-296: l10mm x10mm)。 

e Infineon 的 E-GOLD 系列 。 

se NXP 的 AeroFONE (PNX490 一 一 PBGA: 10mm x 10mm 和 PNX4905 一 一 PBGA.: 12mm x 
12mm) 。 

e 德州 仪器 (如 LoCosto ULCGSM TCS2305 和 LoCosto ULCGSM TCS2315 ) 。 

以 上 所 有 的 芯片 组 都 支持 通用 分 组 无 线 服务 (General Packet Radio Service，GPRS)。 








D.8 GPRS 


GSM 扩展 到 2.5G 主要 是 由 于 通用 分 组 无 线 服务 (GPRS) 技术 。GPRS 把 分 组 交换 机 制 加 入 
到 了 GSM 当中 。 采 用 GPRS 连接 ， 使 得 手机 一 直 处 于 联网 状态 并 可 以 立即 传输 数据 ， 让 用 户 可 
以 像 拨号 上 网 一 样 随意 进行 访问 ， 而 且 支 持 在 任何 地 方 都 可 以 保持 连接 并 拥有 更 高 的 数据 传输 
率 (一 般 来 说 是 32 ~48kbps)。 与 基本 的 GSM 不 同 ，GPRS 在 进行 数据 传输 的 同时 仍然 可 以 接听 
电话 。GPRS 已 经 覆盖 当前 蜂窝 网 络 ， 其 优点 是 使 用 了 下 (Internet Protocol) 协议 传输 的 特性 。 

由 于 了 人 P 协 议 是 按 分 组 传输 ， 网 络 不 需要 连续 的 数据 传输 ， 因 此 IP 传输 可 以 支持 信道 共享 。 
一 个 用 户 可 以 在 其 他 人 读 信息 的 时 候 收发 数据 ， 另 一 个 用 户 在 这 个 时 候 不 需要 占用 信道 。 所 以 ， 
GPRS 要 比 不 论 是 否 传输 数据 都 会 占用 信道 的 电路 交换 网 络 (2G) 高 效 。 

GPRS 手机 的 级 别 可 以 决定 其 数据 发 送 速 度 ， 从 技术 角度 来 说 ， 这 种 级 别 是 指 它们 能 够 用 于 
上 传 ( 从 手机 发 送 数据 ) 和 下 载 (从 网 络 接收 数据 ) 的 时 隙 数量 。 每 个 信道 被 分 成 8 个 时 际 ， 
每 个 时 阶 上 最 大 的 数据 传输 率 为 13. 4kbps。 其 中 一 个 时 隙 用 于 控制 传输 ， 而 语音 传输 一 般 来 说 要 
占用 两 个 时 隙 。 

如 果 将 8 个 时 隙 都 分 配给 了 同一 个 用 户 ， 从 理论 上 讲 ， 将 获得 最 高 171. 2kbps 的 数据 传输 
率 。 用 户 可 以 获得 的 最 大 传输 速率 是 通过 采用 4 +1 这 种 方案 (4 个 时 隙 用 于 下 载 ，1 个 时 隙 用 于 
上 传 ) 获得 的 ， 为 53. 6kbps， 但 是 实际 中 只 有 40 ~50kbps。GPRS 设备 也 可 以 根据 其 处 理 CSM 语 
音 通话 和 GPRS 连接 的 能 力 进行 分 类 : A 类 型 的 手机 可 以 同时 连接 到 GPRS 和 GSM 服务 。B 类 型 
的 手机 可 以 同时 绑 定 GPRS 和 GSM 服务 ， 但 每 次 只 能 使 用 一 种 服务 。B 类 型 的 手机 支持 在 GPRS 
连接 时 拨打 、 接 听 电 话 或 者 发 送 、 接 收 SMS 信息 。 在 通话 或 者 收发 SMS 信息 时 让 CPRS 服务 挂 
起 ， 然 后 当 通话 或 者 SMS 会 话 结束 时 自动 恢复 。C 类 型 的 手机 可 以 绑 定 GPRS 或 者 GSM 语音 服 
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务 中 的 一 种 ,使 用 这 种 类 型 手机 的 用 户 需 要 在 两 种 服务 之 间 切 换 。 
D.9 ZigBee 


ZigBee， 即 IEEE 802. 15. 4 无 线 个 人 区 域 网 (WPAN) 标准 ， 于 2004 年 被 批准 ， 它 特别 针对 
腾 和 人 式 应 用 。ZigBee 层 在 802. 15.4 协议 顶层 ， 带 有 mesh 网 络 、 安 全 和 应 用 控制 。ZigBee 应 用 所 
关注 的 重点 为 低 功 耗 、 高 密度 网 络 节 点 、 低 成 本 以 及 实现 便捷 性 。 

ZigBee 设备 可 分 为 三 种 类 型 : 网 络 协调 器 ( Network Coordinator) 、 全 功能 设备 (FFD) 和 精 
简 功 能 设备 (RFD)。 其 中 只 有 FFD 定义 了 完整 的 ZigBee 功能 ， 并 能 成 为 网 络 协调 器 。RFD 资源 
有 限 ， 由 于 它 是 一 个 低 成 本 终端 的 解决 方案 ， 所 以 它 不 允许 使 用 一 些 高 级 的 功能 (如 路 由 )。 每 
- -个 ZigBee 网 络 有 一 个 指定 的 FFD 作为 其 网 络 协调 器 。 

协调 器 作为 管理 员 并 组 织 网 络 。ZigBee 的 寻 址 空间 为 64 位 的 IEEE 地 址 设备 ， 并 支持 多 达 
65 535 个 独立 的 网 络 。 它 支持 多 种 网 络 拓扑 结构 ， 其 中 包括 星 形 、 点 对 点 和 网 状 。ZigBee 具有 主 
从 配置 功能 ,非常 适 合 于 许多 仅仅 通过 小 数据 包 交 互 且 不 常 使 用 的 设备 。 这 方面 就 意味 着 ，Zig- 
Bee 非常 适合 于 建立 自动 化 系统 、 照 明 控 制 、 安 全 传感器 等 。 

ZigBee 的 另 -个 重要 特征 是 低 延 迟 : 当 一 个 ZigBee 设备 断 电 (除了 一 个 32kHz 的 时 钟 外 所 
有 电路 都 关闭 ) 时 ， 它 可 以 在 15ms 内 醒 来 ， 然 后 传输 一 个 包 。 这 个 延迟 同时 也 提供 了 一 些 能 
上 的 优势 ( 它 可 以 快速 地 将 设备 打开 进行 传输 ， 然 后 再 将 设备 转 人 睡眠 模式 ， 这 样 就 能 实现 非 
常 低 的 平均 功 耗 ) 。 

ZigBee 定义 了 多 个 信道 : 0 号 (868MHz ) ，1 号 到 10 号 (915MHz) 和 11 号 到 26 号 
(2. 4GHz)。 这 些 频 段 的 最 大 数据 传输 速率 分 别 为 250kbps (2405 ~ 2480MHz 之 间 ， 在 全 球 范围 使 
用 ) ，40kbps (902 ~928MHz 之 间 ， 在 美洲 范围 使 用 ) ，20kbps (863.3MHz， 在 欧洲 范围 使 用 ) 。 
当然 ， 这 些 速 率 都 是 理论 上 的 原始 数据 ， 并 不 是 实际 可 达 的 。 由 于 协议 的 开销 ， 实 际 的 数据 传输 
速率 将 低 于 这 些 数据 。 

ZigBee 的 数据 包 长 度 是 127 个 字 节 ， 其 中 包括 包头 和 16 位 的 校 验 位 ， 数 据 的 有 效 载 荷 可 达 
104 个 字 节 长 度 。 无 线 信 号 的 最 大 输出 功率 一 般 为 lmW， 范 围 达 75m。ZigBee 对 软件 的 可 配置 选 
项 包括 加 密 和 认证 ， 密 钥 处 理 和 帧 保护 。 当 使 用 CPU 控制 ZigBee 时 ， 其 协议 栈 需 要 32KiB 的 空 
间 存 储 ， 但 可 以 精简 为 4KiB (这 被 认为 是 非常 小 ) 。 


ZigBee 解决 方案 “ 


一 些 适 合 在 伐 人 式 计 算 机 系统 中 使 用 的 ZigBee 芯片 组 由 以 下 生产 商 制 造 : 
e Atmel (例如 PQFN-32 封装 的 AT86RF230: 5mm x5mm) 。 

Freescale (例如 LGA-64 封装 的 MC132XX， 9mm x9mm)。 

Microchip (例如 QFN-40 封装 的 MRF24]40: 6mm x6mm) 。 

。 德州 仪器 (例如 QLP-48 封装 的 CC2420: 7mm x7mm)。 








D. 10 无 线 USB 


无 线 USB (WUSB) 旨 在 扩大 有 线 USB 标准 的 战果 : 一 般 认 为 有 线 USB 是 用 户 友好 和 可 靠 
的 ， 而 无 线 USB 倡导 者 希望 取得 与 有 线 USB 类 似 的 理念 。 

WUSB 是 专 为 房间 大 小 的 空间 而 设计 的 ， 采 用 点 对 点 127 通道 体系 结构 〈 链 路 的 一 端 是 一 个 
“集线器 ”， 为 多 个 终端 服务 )。 它 在 3m 以 内 的 距离 内 都 能 获得 高 达 480Mbps 的 数据 传输 速率 ， 
超过 10m 的 范围 能 获得 110Mbps 的 传输 速率 。 它 使 用 3GHz 左右 的 频段 (这 意味 着 这 项 技术 在 不 
少 由 家 者 不 能 被 授权 使 用 ) ， 
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在 大 多 数 方面 WUSB 与 USB 类 似 : 容易 使 用 ，127 个 可 编 址 设备 ， 相 同 的 集线器 以 及 发 言 式 
拓扑 结构 ， 相 同 的 480Mbps 最 大 数据 传输 速率 ， 相 同 的 计算 机 接口 等 。 


无 线 USB 解决 方案 


以 下 是 一 些 WUSB 芯片 组 : 

e Alereon (例如 AL5100 无 线 收发 器 加 上 AL5300 的 ARM 供电 的 基带 处 理 器 和 MAC ) 。 

e Atmel (例如 128 引 脚 TQFP 中 的 AT76C503A， 14mm x 14mm， 其 中 包含 一 个 用 于 基带 处 
理 的 ARM7 处 理 器 ) 。 

。 三 星 (例如 在 FBGA 8mm x gmm 封装 下 的 S3CR650B。 有 趣 的 是 ， 前 级 “S3” 与 三 是 

S3C2410 相同 ， 后 者 我 们 讨论 过 多 次 ， 事 实 上 ，S3CR650B 也 包含 一 个 ARM 处 理 器 内 核 ， 

专门 用 于 WUSB 的 基带 处 理 ) 。 

Wisair 的 单 芯片 解决 方案 (TFBGA 封装 的 WSR610; 13mm xl13mm， 猜 猜 它 包 含 什么 处 理 

器 ? 训 无 疑问 ， 当 然 也 是 ARM) 。 


D. 11 近 距 离 通 信 

近 距 离 通 信 (Near Field Communication ，NFC) 是 一 种 最 新 的 无 线 网 络 技术 ， 提 供 专用 的 短 
程 连接 。NFC 是 由 索尼 和 NXP 共同 开发 ， 并 为 通信 距离 超过 4cm 的 电子 设备 之 间 提 供 睫 观 、 简 
单 和 安全 的 通信 。 它 在 2003 年 被 批准 为 ISO 标准 。 

NFC 的 工作 频段 为 13. 56MHz， 数据 传输 速率 可 达到 424kbps， 并 与 其 他 一 些 非 接 触 式 通信 方 
式 兼容 ， 如 ISO 14443A 和 1SO 14443B (与 索尼 的 FeliCa 技术 一 同 使 用 )。 与 NFC 那样 ， 它 们 也 
工作 在 13. 56MHz 频段 。 

NFC 接口 可 以 工作 在 几 种 不 同 的 模式 下 ,不 同 模式 决定 了 设备 是 否 会 产生 自身 的 射频 场 ， 
或 设备 能 否 从 其 他 设备 产生 的 射频 场 中 获得 能 量 。 如 果 一 个 设备 能 产生 自己 的 场 ， 则 我 们 称 之 
为 有 源 设备 ， 否 则 称 之 为 无 源 设备 。 

NFC 技术 主要 针对 移动 电话 应 用 ,但 也 可 以 扩展 至 短 距离 通信 (如 RFD 一 一 无 线 射 频 识别 
任务 )。 


NFC 解决 方案 


以 下 是 目前 的 一 些 NFC 芯片 组 : 

。 NXP (加 HVQFN40 封装 下 的 PN511 和 HVQFN40 或 TSSOP38 封装 下 的 PN531)。 

e Sony 的 FeliCa 系列 。 

RedTacton 是 另 一 种 低 功率 技术 ， 它 使 用 人 类 皮肤 做 导体 。 因 此 ， 这 是 一 个 为 人 类 区 域 网 络 
(human area networking, HAN) 服务 的 协议 。 它 于 1996 年 由 麻 省 理工 学 院 医 学 实验 室 的 Thomas 
Zimmerman 和 Neil Gershenfeld 共同 提出 。 首 他 们 工作 的 基础 上 ， 日 本 电报 电话 公司 (NNT) 进行 
了 进一步 的 研究 和 发 展 ， 创 造 了 ElectAura- Net， 后 来 成 为 RedTacton。 

RedTacton 可 以 安全 地 将 人 体 体 表 作为 一 个 速率 高 达 10Mbps 的 数据 传输 通路 。RedTacton 有 
如 下 三 大 主要 功能 : 

。 通信 通路 可 以 由 一 个 物理 接触 创建 ， 触发 比如 说 一 个 安装 在 人 身上 的 电子 传感器 和 其 人 

式 计算 机 之 间 的 数据 流 。 另 一 个 例子 是 ， 两 个 配备 了 RedTacton 设备 的 人 之 间 可 以 通过 
简单 的 握手 来 交换 数据 。 

。 除了 人 体 ，RedTacton 还 可 以 利用 许多 材料 来 作为 传输 介质 。 只 要 材料 是 导 电 的 和 绝缘 

的 ， 如 水 和 其 他 许多 液体 、 金 属 面料 、 部 分 塑料 等 。 
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。 与 无 线 技 术 不 同 的 是 ， 即 使 大 量 人 同时 在 会 议 室 、 礼 堂 、 商 店 等 好 方 通信 ， 传 输 速度 也 
不 会 恶化 。 这 将 造就 一 个 固有 的 可 靠 的 通信 系统 。 这 意 昧 着 ， 可 以 实现 一 个 口袋 中 的 红 
人 式 计 算 机 对 另 一 个 口袋 中 的 设备 “讲话 ”， 或 查询 安装 在 身体 上 的 传感器 、 安 装 在 鞋 
子 上 的 传感器 、 助 听 器 等 设备 。 


D. 12 WiBro 


韩国 的 WiBro ( Wireless Broadband， 无 线 宽 带 ) 是 一 种 基于 移动 WiMAX 技术 (IEEE 
802. 16e 的 TDD OFDMA 标准 ) 的 无 线 宽带 服务 ， 它 提高 了 数据 传输 速度 ， 也 带 来 了 更 高 的 复杂 
度 。 这 是 一 个 高 速 的 服务 ， 能 够 在 用 户 行驶 速度 达 120kmvh 的 情况 下 提供 语音 、 数 据 和 视频 
服务 。 

WiBro 技术 规范 是 IEEE 802. 16-2004 、P802. 16e 和 P802. 16-2004 标准 的 一 个 子 集 。2002 年 ， 
韩国 政府 为 2.3GHz 的 范围 分 配 100MHz 的 频谱 ， 人 允许 WiBro 为 基站 周围 半径 1 ~5km 范围 内 (在 
10MHz 的 通道 中 ) 提供 20 ~30Mbps 的 数据 吞吐 量 。 

三 星 公司 提供 了 基于 PCMCIA 的 WiBro 接 入 卡 ， 其 他 几 个 制造 商 的 WiBro 开发 人 员 也 正在 开 
发 类 似 的 起 片 组 。 


D. 13 无 线 设备 总 结 


表 D-1 总 结 了 前 面 几 节 的 内 容 。 但 我 们 在 “引言 ”中 也 曾 提 到 ， 这 是 一 个 迅速 发 展 的 领域 。 
表 中 的 信息 都 是 作者 写作 本 书 时 的 最 新 版 本 ,但 随 着 技术 的 不 断 进步 将 迅速 过 时 ， 尤 其 是 在 表 
的 下 半 部 分 。 
















































































表 D-1 几 种 相对 持久 地 用 于 当代 嵌入 式 计算 机 系统 中 的 无 线 标准 及 其 重要 参数 

技术 频率 信道 名 宽 。 | 县 式 数 二 | 天 锥 过 二。 | 。 功率 需 来 pe 
802. 11a 5. OGHz 20MHz 54Mbps 25Mbps 50 ~ 1000mW 25m 
802. 11b 2. 4GHz | 25MHz ll1Mbps 5. 5Mbps 10 ~ 1000mW 30m 
802.11g | 2.4GHz |25MEz |S4Mbps 25Mbps 10 -1000mW | sOm 
802. 11n 2.4/5GHz 20/40MHz 600Mbps 300Mbps $50 ~ 1000mW SOm 
802. 20 <3.SGHz 1.25/2. SMHz 1Mbps 一 一 3 ~8km 
802. 16 10 ~66GHz 20, 25, 28MHz 133 ~134Mbps 一 一 2 ~Skm 
802. 16a/d | 2 ~11GHz 1.5 ~22MHz 75 Mbps 40Mbps 250 ~2500mW | 10km 
802. 16e 2~11CHz 1.5 ~22MHz 75Mbps 15Mbps 250 ~2500mW | 3km 
WiBro 2.6CHz | 10MHz | 20 ~ 30Mbps 1 ~3Mbps 250 ~2500mW | 1 ~ Skm 
蓝牙 2. 4GHz 1MHz 1 ~3Mbps 0.7~2. 1Mbps | I ~ I00mW | 1 ~ 100m 
CSM 0. 8/0.9, 1.8/1.9GHz |200kHz 9.6 ~19.2kbps 一 20 ~3000mW 100m ~35km 
GPRS 0. 8/0.9, 1.8/1.9GHz |200kHz | 171kbps 40 ~ SOkbps 20 ~ 3000mW 100m ~ 35km 
ZigBee 868 ~ 868. 9MHz 300/600kHz 20kpbs 一 1 ~ 1000mW 10 ~75m 
ZigBee 902 ~ 928MHz | 300/600kHz |40kpbs | 一 1 ~1000mW 10 ~75m 
ZigBee 2400 ~ 2483. 5MHz 2MHz 250kbps 一 1 ~1000mW 10 ~75m 
WUSB 3. 1 ~10.6GHz ultra wideband |480Mbps 一 100 ~ 300mW 10m 
NFC 13. S6MHz 一 424kbps 一 一 | 0 ~20cm 
PAN 0.1~1IMHz 400kHz 417kbps 2400bps 1. SmW Qem 
RedTacton 一 | 一 10Mbps | 一 > 100mW Ocm 
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D. 14 ”应 用 举例 
为 了 举例 说 明 如 何 选择 标准 ， 想 象 我 们 有 一 个 谋 人 式 ARM 系统 ， 现 在 我 们 需要 将 它 升 级 为 

支持 无 线 技 术 。 

这 个 系统 需求 包括 以 下 几 点 : 

。 一 个 200MHz 的 三 星 S3C2410 微 处 理 器 ， 支 持 最 大 4Mbps 速率 的 32 位 并 行 总 线 接 口 和 串 

行 端口 。( 对 于 与 S3C2410 连接 的 众多 外 设 ， 请 参见 7.2 节 )。 

e。 32MiB 的 SDRAM 和 16MiB 的 并 行 连接 的 闪存 。 

。 功率 消耗 不 超过 1. 5W。 

。 办 公 室 周围 10m 以 上 的 数据 传输 速率 为 4Mib/s。 

。 我 们 不 希望 购买 频段 。 相 反 ，ISM 频段 是 首选 。 

。 3.3V 的 电源 供给 。 

成 本 不 是 一 个 问题 (不 像 大 多 数 “现实 世界 ”的 研发 )， 这 种 情况 对 我 们 来 说 很 幸运 。 在 
3.3VY 电源 方面 ， 可 以 使 用 线性 稳 压 器 以 降低 电压 ， 或 使 用 开关 稳 压 器 (效率 可 接近 80% ) 。 

所 使 用 的 频率 需要 在 未 被 许可 的 ISM 频段 范围 内 。 由 于 这 涉及 公共 频率 ， 频 谱 效 率 如 延迟 、 
安全 和 启动 时 间 相 对 就 不 重要 。 可 能 所 有 的 200MIPS 微 处 理 器 都 可 用 于 支持 无 线 道 信 (因为 在 
MIPS 上 没有 任何 更 高 的 要 求 ) ， 但 一 个 低 成 本 的 独立 单 芯片 解决 方案 肯定 会 是 首选 ， 因 为 这 涉及 

，| 较 少 的 开发 工作 (不 需要 写 软件 协议 或 进行 测试 ) 。 

469 在 4Mbps 的 数据 传输 速率 需求 的 基础 上 ， 我 们 可 以 排除 许多 表 D-1 中 给 出 的 无 线 技术 。 剩 
下 802. 11a/b/g/n、802. 16a/d/e、ElectAura-Net (一 种 专用 网 络 ) 、WUSB 和 WiBro。WUSB 也 被 
排除 ， 因 为 它 使 用 一 个 非 公 开 的 频率 范围 。 

在 10m 通信 距离 需求 的 基础 上 ， 可 以 进一步 从 列表 中 排除 钙 ectAura-Net。 而 由 于 功率 预算 是 
1. 5W， 我 们 应 该 选择 802. 11a/b/g 技术 ， 因 为 它们 在 基于 距离 的 要 求 上 是 能 耗 最 低 的 。 

802. 16a/d/e 和 WiBro 可 能 会 超过 给 定 的 功率 预算 。802. 11n 标准 还 没有 最 后 确定 ， 因 此 它 
也 应 该 从 列表 中 排除 。 选 择 802. 11a/b/g 的 另 一 个 好 处 是 ， 它 可 以 与 TCP/IP 兼容 。 

要 找到 一 个 合适 的 单 芯片 解决 方案 ， 我 们 可 以 参阅 前 面 关 于 802. 11a/b/g 解决 方案 的 介绍 。 
然后 可 以 参考 列 出 设备 的 数据 表 以 及 通过 互联 网 搜索 其 他 最 新 方案 。 在 查询 所 有 的 方案 后 ， 
Broadcom 的 BCM4328 看 起 来 最 有 优势 : 它 是 单 芯 片 并 且 支 持 IEEE 802. 11a/b/g 标准 ， 自 带 一 个 
CPU 以 处 理 通信 协议 。BCM4328 要 求 3.3V 的 电源 。 这 意味 着 ,我 们 不 需要 升 压 或 降 压 电源 稳 压 
器 。BCM4328 还 支持 安全 数字 (secure digital) 接口 和 USB2. 0 一 一 而 S3C2410 也 支持 安全 数字 接 
口 和 USB1. 1。 因 此 当 最 大 速率 不 超过 12Mbps 时 ,我 们 能 够 使 用 USB 接口 ， 否 则 使 用 支持 超过 
100Mbps 速率 的 安全 数字 接口 。 


D. 15 “小 结 
本 附录 简单 介绍 了 如 何 为 一 个 嵌入 式 计算 机 系统 增加 无 线 通信 连接 。 同 时 依次 介绍 了 大 部 
分 常用 的 无 线 协议 ， 并 通过 一 张 表格 对 各 种 无 线 协议 的 参数 进行 了 总 结 。 
最 后 ， 给 出 了 一 个 简单 的 应 用 例子 ， 说 明 如 何 为 三 星 S3C2410 能 人 式 系统 选择 无 线 通信 
E70| 设备 。 





| 附录 E 


Computer Architecture; An Embedded Approach 
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目前 针对 FPGA 的 开发 有 许多 先进 的 工具 。 主 要 的 FPGA 供应 商都 会 提供 自己 的 软件 ， 通 常 
发 布 免费 的 Web 版 本 以 供 下 载 ， 而 专业 的 芯片 开发 公司 则 会 提供 运行 在 UNIX 和 Linux 工作 站 上 
的 工具 ， 用 于 工业 生产 中 开发 最 尖端 的 项 目 。Mentor Graphics 公司 的 ModelSim 便 是 这 些 最 常见 的 
开发 工具 之 一 。 

作者 建议 在 大 型 或 是 关键 的 项 目 设计 中 使 用 ModelSim。 但 是 ， 为 了 进行 快速 评估 和 轻 量 级 
的 测试 ， 我 们 将 提出 一 个 简单 的 开源 方案 : Icarms Verilogs ， 结 合 使 用 GTKwave° 波形 查看 工具 。 
同时 也 有 备 选 方案 ， 特 别 是 对 于 波形 的 查看 。 


E.1 准备 和 软件 获取 


该 软件 的 最 佳 运行 环境 是 安装 有 Linux 操作 系统 的 计算 机 ， 特 别 是 Kubuntu 或 者 Ubuntu 版 本 
的 Linux。 由 于 一 些 读者 可 能 还 没有 将 PC 的 操作 系统 从 Windows 更 换 成 Linux， 因 此 可 以 先 安装 
Wubis ，Wubi 可 以 在 计算 机 的 C 盘 里 创建 一 个 大 型 文件 ， 并 且 在 Windows 的 “启动 ”菜单 中 添 
加 一 个 选项 ， 使 得 他 们 在 下 一 次 启动 计算 机 时 可 以 选择 运行 Kubuntu。 钊 载 过 程 十 分 快捷 。 可 以 
轻松 地 删除 这 个 大 型 文件 ， 并 且 甸 载 掉 整 个 软件 。Mac 操作 系统 的 用 户 可 以 获取 并 运行 两 个 版 本 
的 软件 ， 有 能 力 的 用 户 甚至 可 以 利用 源 代 码 编写 出 这 个 软件 。 

这 里 ， 我 们 假定 读者 已 经 有 了 一 个 可 以 工作 的 Linux 发 行 版 ， 或 是 类 似 的 版 本 。Kubuntuy 
Ubuntu 用 户 现 在 就 可 以 开始 安装 该 软件 的 两 个 部 分 。 在 Shell 命令 行 窗口 中 ,键入 以 下 内 容 : 

sudo apt-get install verilog gtkwave 

当 出 现 提示 符 时 ， 输 入 你 的 密码 。 如 果 给 出 警告 说 你 不 在 sudoers 的 列表 中 ， 请 切换 成 该 计 
算 机 的 管理 员 账 户 或 是 root 账户 。 如 果 APT 找 不 到 该 软件 或 是 下 载 失 败 ， 则 到 网 页 上 搜索 “gdk- 
wave Ubuntu 软件 包 ” 或 者 “verilog Ubuntu 软件 包 ”， 下载 .deb 文件 到 计算 机 桌面 上 ， 然 后 双击 
鼠标 并 选择 “install package” 选 项 。 

以 上 步骤 都 顺利 完成 之 后 ， 你 就 有 了 一 个 可 以 工作 的 Verilog 编译 器 和 仿真 器 (Tcarus)， 以 
及 示波器 (GTKwave ) 。 


E.2 如 何 编译 和 仿真 Verilog 


我 们 用 8.7.6 节 的 TinyCPU 栈 堆 作为 一 个 例子 ， 在 程序 清单 已 1 里 重复 列 出 。 
程序 清单 E. 1 stack.v 

















1 module stack(clk, reset, load, push, pop, d, qtop, ganext); 
2 parameter N = 8; 

3 

4 input clk, reset, load, push, pop; 








© http:/www. icans. com/eda/ verilog/ 。 
© http :Agtkwave. sourceforge. net/。 
加 从 http:AHwubi-installer. org 网 站 下 载 并 运行 wubi 安装 包 ， 然 后 跟随 提示 选择 kubuntu 或 ubuntu 进行 安装 。 
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5 input [15:0] 4d; 

6 Output [15:0] dtop, aqnext; 

7 reg [15:0] qaq [0O:N-1]; 

8 

9 assign gtop = gq[0]; 

10 assign qnext = G[1]:; 

11 

12 always @ (posedge clk or negedge reset) 
13 if(!'reset) G[0] <= 0; 

14 else if(load} gq[0] <= d; 

15 else if(pop) q[0] <= 9q[1]; 

16 

17 integer i; 

18 always @ (posedge clk or negedge reset) 
19 for{i=1;i< N-1;i=i+1) 

20 if('reset) G[i] <= 0; 

21 else if (push) al[i] <= ql[li-1]; 

22 else if(pop) Gil <= qli+1]; 

23 

24 always @ (posedge clk or negedge reset) 
25 if(!reset) alN-1] <= 0; 

26 else if(push) q[N-1] <= ga[N-2]:; 

27 


28 endmodule 








假设 这 是 我 们 在 当前 上 且 录 下 保存 的 一 个 名 为 “stack.v” 的 文本 文件 ， 我 们 使 用 如 下 所 示 的 
Shell 命令 ， 利 用 Icarus Verilog 去 编译 Verilog 源 代 码 : 


iverilog -oO stack stack.v 


这 条 命令 指示 Icarus Verilog 编译 器 (iverilog) 对 Verilog 源 程序 stack.v 进行 编译 ， 并 且 在 当 
前 目录 下 生成 一 个 名 为 stack 的 可 执行 输出 文件 。 

但 是 仅 靠 这 个 是 不 够 的 ， 我 们 必须 指定 程序 的 输入 或 输出 ， 而 这 也 是 测试 平台 的 核心 。 因 
此 ， 我 们 还 需要 编写 出 一 个 测试 平台 来 “使 用 ”Verilog 模块 。 所 幸 我 们 已 经 在 8.7.6 节 里 编写 
初始 代码 的 时 候 创建 了 一 个 测试 平台 。 

当 我 们 使 用 ModelSim 进行 仿真 的 时 候 ， 可 以 使 用 这 个 测试 平台 。 但 是 ， 对 于 Icarus Verilog 
和 其 他 的 一 些 工 具 ， 我 们 需要 仔细 区 分 开源 代码 中 的 哪些 信号 是 仿真 中 我 们 需要 检测 的 ， 还 要 
确定 我 们 将 要 把 这 些 信息 存 在 何 处 。 而 后 者 很 容易 用 Verilog 中 的 $dumpfile 仿真 命令 完成 : 

Sdumpfile("stack tb.vcea") 

然后 ， 前 者 的 规范 可 以 利用 包含 了 一 些 信号 的 语句 来 制定 ， 而 这 些 信号 是 由 下 面 Verilog 的 
$dumpvars 仿真 命令 产生 的 : 

sdumpvars (0, stack_tb); 

最 后 要 指出 的 是 ， 在 我 们 所 有 的 测试 平台 中 ， 已 经 创建 了 一 个 恒 动 的 时 钟 。 在 没有 任何 其 他 
守 息 的 情况 下 ， 我 们 的 仿真 将 会 一 直 持 续 下 去 (直到 测试 平台 中 的 指定 活动 完成 )。 这 时 ,我们 
可 以 使 用 另 一 条 Verilog 仿真 命令 来 结束 整个 仿真 任务 : 

sfinish; 


程序 清单 E. 2 列 出 了 经 过 修改 过 的 原始 测试 平台 : 
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程序 清单 E. 2 stack_tb.v 


‘timescale 1ns / 1ips 

module stack_tb; 

reg clk, reset, load, push, pop; 
reg [15:0] qd; 

wire [15:0] gqtop; 

wire [15:0] qnext; 


国人 修 轴 尾 由 月 请 


stack stack0(.cCLIK(CcLK)，.reset (reset), .load{(load), .push (push), 
.Pop(pop), .d(d), .gtop(qtop), .gnext (qnext)); 


10 initial begin 

11 clk=0; 

12 forever 

13 #50 clk = ~clk; 
14 end 


16 initial begin 


18 $sdumpfile("stack tb.vced"); 
19 sdumpvars (0, stack tb); 


21 reset=0; load=0; push=0; pop=0; d=0; 
22 #100 reset=1; push=1; d=16’'hi111; 
23 #100 push=1; d=16'h2222; 

24 #100 push=1; d=16h3333; 

25 #100 push=1; d=16’h4444; 

26 #100 push=1; d=16’'h5555; 

27 #100 push=1; G=16’h6666; 

28 #100 push=1; d=16h7777; 

29 #100 push=1; d=16'h8888; 

30 #100 push=1; GQ=16’hEEEE; 

31 #100 push=0; pop=1; 

32 #100 pop=1; 

33 #100 pop=1; 

34 #100 pop=1; 

35 #100 pop=1; 

36 #100 pop=1; 

37 #100 pop=1; 

38 #1090 pop=1; 

39 #100 pop=0; load=1; d=16’h1234; 
40 #100 load=0; pop=1; 

41 #100 $finish; 

42 end 

43 endmodule 








我 们 将 需要 测试 的 栈 模块 连同 测试 平台 一 起 进行 编译 : 


iverilog -o stack tb stack.v stack tb.yv 


正如 我 们 前 面 所 看 到 的 ， 这 条 命令 之 后 会 产生 一 个 可 执行 的 输出 文件 ， 这 个 时 候 名 为 stack_ 
tb。 接 下 来 ， 我 们 用 Icarus Verilog 的 vvp 命令 来 执行 stack_tb 的 仿真 : 
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VVP stack_tb 


474| 一 旦 仿真 完成 ， 很 快 就 会 生成 一 个 新 的 文件 ， 文件 名 称 就 是 之 前 在 $dumpfile 命令 中 给 定 的 : 
本 例 中 为 stack_tb.ved。 这 个 值 会 改变 转 存 (VCD) 文件 ， 这 是 Verilog 标准 当中 的 一 部 分 ， 可 以 
由 一 定数 目的 观察 者 打开 。 在 我 们 的 例子 中 ， 我 们 使 用 GTKwave 来 打开 并 显示 它 : 


gtkwave stack_ tb.vcd & 


此 时 将 出 现 如 图 E-1 所 示 的 空白 的 波形 窗口 。 然 后 就 要 放大 屏幕 左 侧 “SST” 窗 口 里 的 信 
点 击 随后 出 现 的 “stack0” 标 识 ， 如 图 E-2 所 示 。 
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图 EE-1 位 认 要 观察 的 信 叶 之 前 的 GTKwave 显示 截图 
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图 E-2 GTKwave 显示 器 列 出 可 用 信和 号 的 截图 
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通过 选择 所 需 的 信号 ， 并 点 击 “Append” 按 钮 ， 这 些 都 可 以 添加 到 主 显示 区 。 通 常 也 需要 
在 主 菜单 中 选择 Time- > Zoom Full (或 点 击 放大 镜 图 标 ， 就 是 类 似 方形 镜框 的 符号 ) 来 把 显示 输 
出 放大 到 最 大 倍数 。 在 图 E-3 中 可 以 看 到 屏幕 上 的 7 个 主要 信号 ， 都 是 用 前 面 所 提 到 的 方法 放大 
过 的 。 
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图 FE-3 GTKwave 显示 器 显示 测试 平台 产生 的 时 钟 以 及 VCD 文件 中 的 6 个 控制 和 数据 信和 号， 仿真 的 
粒度 设置 为 2hs 


E. 3 如何 查看 仿真 输出 475 


为 了 确保 测试 平台 上 的 仿真 结果 符合 预期 ， 最 基本 也 是 容易 出 错 的 方法 就 是 用 眼睛 观察 波 je 
形 。 在 有 大 量 仿真 结果 的 情况 下 这 种 方法 效率 很 低 (人 眼 当 然 不 适合 用 来 专门 查看 波形 查看 工 
具 中 的 大 量 波形 ) 。 经 验 表明 用 这 种 方法 往往 容易 忽略 错误 。 

用 波形 查看 工具 获得 少量 波形 要 好 得 多 ， 但 是 需要 使 用 单独 的 工具 来 做 模块 的 通过 /失败 测 
试 。 而 且 ， 这 样 做 还 需要 我 们 学 习 一 些 Verilog 的 仿真 命令 。 在 下 2 节 中 我 们 已 经 见 到 了 三 个 这 
样 的 命令 ， 这 里 我 们 再 给 出 几 个 更 有 用 的 命令 : 



































命令 含义 
$monitor 当 信 分 改 变 时 打印 出 来 
$input 从 文件 中 读 取 命令 
Sdisplay 与 printf 命令 等 效 
$stop 暂停 仿真 
Sfinish 终止 进程 
$time 仿真 时 间 
S$readmemh 将 文件 中 十 六 进 制 的 数列 导入 内 存 中 
$readmemb 将 文件 中 一 进 制 的 数列 导入 内 在 中 
$dumpfile | 人 确定 输出 a 写 人 的 YCD 文 件 
Sdumpvars 确定 贤 鉴 视 及 转 存 的 康明 
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Verilog 中 的 $display 命令 就 像 C 语言 中 的 printf() 命令 ， 输 出 仿真 期 间 需 要 的 信息 (但 是 为 
FPGA 编译 代码 时 将 忽略 ) 。° 

为 了 说 明 输 入 和 输出 文本 数据 在 验证 一 个 Verilog 仿真 模块 的 操作 中 的 作用 ， 我 们 回 过 头 再 
看 看 堆栈 的 例子 。 在 这 种 情况 下 ， 我 们 可 以 重 构 测 试 平台 ， 使 它 从 一 个 文件 中 读 取 数据 而 不 是 手 
工 向 Verilog 中 输入 数据 项 。 

程序 清单 E. 3 显示 了 这 个 测试 平台 。 在 这 种 情况 下 ， 在 测试 平台 data 的 开始 处 就 定义 了 一 
个 寄存 器 ， 这 个 测试 平台 用 来 存储 输入 的 测试 矢量 文件 。readmemh 命令 此 时 用 来 将 数据 从 一 个 
输入 文件 导入 到 这 个 寄存 器 (这 个 寄存 器 实质 上 是 一 个 存储 结构 ) 。 数 据 文件 的 格式 应 该 符合 这 
个 存储 器 的 排列 。 在 这 种 情况 下 ， 我 们 的 数据 文件 ， 每 行 按 从 左 到 右 的 方式 排列 ， 包 含 了 这 些 输 
人 : reset, load ,push, pop 和 d。 因 此 在 输入 的 矢量 文件 中 每 行 有 5 项 ， 如 程序 清单 E.4 所 示 。 

程序 清单 E. 3 stack_file_tb.v 


1 ‘timescale ins / lps 

2 module stack_ tb; 

3 reg clk, reset, load, push, pop; 

4 reg [15:0] 4d; 

5 wire [15:0] qtop; 

6 wire [15:0] qnext; 

7 stack stack0(.clk(clk), .reset (reset), .load{(load), .push (push), 
‘pop{(pop}, .d(d), .qtop(qtop), .qnext (qnext)); 


8 

9 reg [500:0] data [0:100]; // each line of input data has 5 
words. We have 20 lines, 20x5=100 

10 


11 initial S$readmemh ("infile.txt", data); 
12 integer i; 


13 

14 initial begin 

15 clk=0; 

16 forever 

17 #50 clk = ~clk; 
18 engd 

19 


20 initial begin 
21 sdumpfile("stack_ tb.vcd"); 
22 Sdumpvars (0,stack_ tb):; 


23 end 

24 

25 initial begin 

26 reset=0; load=0; push=0; pop=0; d=0; 

27 $display("\t\t\ttime\treset\tload\tpush\tpop\td\taqtop\taqnext"); 
28 for(i=0;i<5*20;i=i+5) begin 

29 #100 

30 reset=datal[il; 

31 load=datali+l],，; 

32 push=datal[li+2]; 





加 注意 Verilog 2001 还 有 输入 /输出 功能 ， 但 并 不 是 都 能 被 lcarus Verilog 支持 。 


只 读 进 了 20 行 〈 每 行 包含 5 个 元 素 ) 。 
所 以 下 一 步 我 们 这 样 编译 并 且 仿 真 : 





33 pop=data{[i+3]; 

34 d=datal[li+4]; 

35 $display ("\t%d\tesb\t%b\tSb\ tsb\ts04h\ts04h\t%04h", $time, 
reset, load, push, pop, dd, qtop, qnext); 


36 end 
37 #100 $finish.; 


38 end 


39 endmodule 


程序 清单 E. 4 


‘DON 人 TO 
上 


术 FFs 





天 天 天 上 天 一 
NO- 
上 上 上 





Le 
NN 


上 
‘0 Lem) 

上 忆 上 上 上 
DP OO OOO OO OO OO OC OO OO OSD 


OOOO OO or 


PO OO 0 OO OOO 


上 


人 





1234 
XXXX 


infile. txt 
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回头 再 看 程序 清单 E. 3 中 的 测试 平台 ， 寄 存 器 包含 了 能 存储 500 个 元 素 的 空间 ， 以 5 x 100 
的 阵列 排列 ， 因 此 这 可 以 容纳 100 个 文本 矢量 行 。 然 而 ， 在 读 进 测试 矢量 的 主 循环 中 ， 我 们 每 次 


iverilog 


-oO Stack_ file tb stack,v stack_file tb.v 


vvp stack_ file. tb 


这 次 ， 因 为 我 们 已 经 使 用 了 $display 命令 ， 所 以 在 显示 器 上 会 打印 出 与 如 下 所 示 相 似 的 


VCD info 
time 

100 

200 

300 

400 

500 

600 

700 

800 


: dumpfile stack_tb.vcd opened for output. 


res 
0 


Ph FF 


et 


load 
0 


OO OO OOoDon 


push 
0 


PPppPpPpPpPPPp 


POP 


OOOONO OOOOoDD 


qtop 
0 


DO OO OO OODO 


anext 
0 


OO OO Ooo 
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900 1 0 1 0 8888 0 0 
1000 1 0 1 0 eeee 0 0 
1100 1 0 0 1 XXXX 0 0 
1200 1 0 0 XXXX 0 0 
1300 0 0 XXXX 0 0 
1400 1 0 0 1 XXXX 0 0 
1500 1 0 0 1 XXXX 0 0 
1600 | 0 0 XXXX 0 0 
1700 1 0 0 1 XXXX 0 0 
1800 1 1 0 0 1234 0 0 
1900 1 0 0 1 XXXX 1234 0 
2000 x x x Xx XxXxXx 0 0 


打印 出 来 的 这 些 列 都 是 测试 平台 测 出 的 结果 ， 提 供 了 时 间 、 文 本 矢量 的 输入 信息 、stack.v 模 
块 的 输出 信息 : qtop 和 qnext。 必 要 的 时 候 ， 可 以 将 这 些 信 息 捕捉 到 一 个 文件 中 。 事 实 上 ， 启 动 
仿真 器 ， 用 UNIX 语法 将 输出 重新 导入 到 一 个 文件 比较 好 实现 : 

vvp stack_file tb > dump.txt 

现在 把 注意 力 转 到 已 经 输出 的 测试 矢量 ， 我 们 首先 可 以 发 现 输入 参数 不 出 意外 地 和 文件 
infile.txt 中 的 参数 一 样 。 再 看 输出 栏 ，qtop 栏 显示 了 堆栈 顶端 的 当前 值 。 然 而 ， 好 像 有 一 个 问 
题 一 一 我 们 可 以 发 现 qtop 在 时 间 值 为 1800 的 时 候 其 值 为 1234， 但 是 为 何 1111、2222 这 些 值 没 有 
被 推 人 堆栈 中 呢 ? 

最 有 可 能 存在 问题 的 是 文件 infile.txt 或 者 测试 平台 本 身 。 我 们 回 过 头 去 检查 原始 测试 平台 以 
及 仿真 的 输出 〈 见 图 了 -3) 。 仔 细 检 查 波形 图 ， 很 明显 存在 同样 的 问题 : qtop 有 同样 的 值 1234 ， 
且 这 个 值 接近 仿真 的 结尾 处 。 

眼 尖 的 读者 或 许 已 经 意识 到 了 问题 所 在 。 回 到 8.7.6 节 ， 我 们 在 那里 首次 定义 了 堆栈 。 观 察 
这 个 定义 了 输入 和 输出 以 及 栈 的 行为 的 表格 ， 发 现 PUSH 信号 本 身 不 会 引起 数据 人 栈 ， 只 会 使 数 
据 向 堆栈 的 下 一 级 推进 。 要 想 装 人 数据 ， 必 须 设置 PUSH 和 LOAD 命令 。 检 查 我 们 的 测试 矢量 ， 
我 们 可 以 发 现 这 个 问题 一 一 我 们 只 有 PUSH 设置 而 没有 LOAD 设置 。 现 在 我 们 在 测试 矢量 中 修改 
这 个 问题 ， 如 程序 清单 E.5 所 示 : 

程序 清单 E.5 infile.txt 











1 00000 

2 1010 1111 
3 1110 2222 
4 1110 3333 
5 1110 4444 
6 1110 5555 
7 1110 6666 
8 1110 7777 
9 1110 8888 
10 111 0 EEEE 
ll 1 0 0 1 XXXX 
12 10 0 1 XXXX 
13 1 0 0 1 XXXX 
14 1 0 0 1 XXXX 
15 1 0 0 1 XXXX 
16 1 0 0 1 XXXX 
17 1 0 0 1 XXXxX 





附录 E 编译 和 仿真 TinyCPU 的 工具 317 


18 1100 1234 
19 10 0 1 XXXX 





重新 进行 仿真 (没有 必要 重新 编译 
文本 矢量 : 


VCD info: dumpfile stack tb.vcd opened for output. 





Verilog 本 身 可 以 处 理 ) ， 然 后 检查 新 打印 出 来 的 输出 














time reset load push pop Q atop qnext 
100 0 0 0 0 0 0 0 
200 0 1 0 es 0 0 
300 1 0 2222 0 0 
400 1 1 1 0 3333 2222 0 
500 1 1 1 0 4444 3333 2222 
600 1 1 0 S555 4444 3333 
700 业 1 1 0 6666 23555 4444 
800 二 1 0 7777 6666 5555 
900 于 1 0 8888 FTF 6666 
1000 1 1 1 0 eeee 8888 7777 
1100 1 0 0 1 XXXX eeee 8888 
1200 . 0 0 XXXX 8888 F777 
1300 让 0 0 XXXX 办 儿 了 666 
1400 1 0 0 1 XXXX 6666 S55S 
1500 1 0 0 1 XXXX 5555 4444 
1600 二 0 0 1 XXXX 4444 3338 
1700 小 0 0 1 XXXX 3333 2222 
1800 1 1 0 0 1234 2222 2222 
1900 1 0 0 J XXXX 1234 2222 
2000 让 x xX 类 XXXX 2222 2222 


你 可 能 发 现 这 比 起 之 前 得 到 的 仿真 数据 更 合理 。 作 为 第 二 轮 检 查 ， 我 们 再 来 查看 在 GTKwave 
中 新 得 到 的 文本 矢量 输出 波形 ， 如 图 E-4 所 示 。 


File Edit Search Time Markers View tHelp | 





























2 ] | Si kg Fromio sec Tai2050 ns 光 Marker: -- | Cursor: 314 ns i 
:Signals Waves 
“Time IP 
clk 
reset 
load 
push 
Pop 
: dé{15:0] 
ee set qtopl15:0] 
Signals | | qnext[15:0] 
ck | 
d[15:0} : 
31:0] 
load 
filter | 
er 中 ke | Replace | or 人 全 pest pee ep | 


图 E-4 与 EE-3 相对 应 的 GTKwave 显示 截图 ， 这 一 次 使 用 的 是 改正 后 的 测试 矢量 输入 文件 
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很 明显 ， 新 的 GTKwave 显示 比 图 E-3 中 拥挤 得 多 。 然 而 ， 注 意 到 第 一 次 中 丢失 的 数据 了 吗 ? 
大 多 数 读者 可 能 都 没有 发 现 ， 这 就 是 一 个 典型 的 例子 ， 说 明 波 形 显示 不 总 是 检测 代码 模块 是 否 
481] 正常 工作 的 最 好 的 方法 ， 无 论 这 个 模块 是 用 Verilog、VHDL、C 还 是 Java 写 的 。 











E.4 高 级 测试 平台 
更 高 级 的 测试 平台 并 不 使 用 波形 显示 或 者 文本 输出 : 它们 使 用 另 一 种 工具 来 进行 分 析 。 作 
者 最 爱 用 的 工具 之 一 就 是 用 MATLAB 或 者 Octave? 建 立 一 个 工作 模型 ， 然 后 按 如 下 方式 来 使 用 : 
。 在 模型 上 进行 扩展 测试 ， 以 此 来 保证 它 能 正常 工作 。 这 就 有 了 作为 比较 的 基础 一 一 任何 
运行 出 来 与 这 个 模型 不 相符 的 代码 都 是 错误 的 。 
。 写 一 个 程序 来 为 这 个 模型 提供 输入 数据 。 
。 将 这 些 输 入 数据 导出 到 一 个 文件 中 进行 格式 化 ， 使 它 能 够 被 Verilog 仿真 访问 ， 作 为 输入 
测试 向 量 。 
。 运行 Verilog 仿真 ， 将 输出 放 人 一 个 文件 。 
。 把 这 个 输出 的 文件 读 入 MATLAB 或 者 Octave。 
。 把 同样 的 测试 向 量 放 到 MATLAB 或 者 Octave 的 模型 中 运行 ， 获 取 输 出 结果 。 
482 。 查看 模型 中 的 输出 值 的 向 量 与 Verilog 仿真 的 结果 是 和 否 一 致 。 有 几 种 方法 可 以 实现 : 将 两 
种 结果 绘制 在 一 个 图 中 ， 减 掉 两 者 的 输出 阵列 并 找到 非 零 元 素 ， 计 算 两 者 的 均 方 差 等 。 
另 一 种 产生 测试 平台 的 方法 一 一 在 Verilog 代码 中 一 一 就 是 使 用 一 个 for 循环 自动 产生 作为 待 
测 模块 输入 的 测试 数据 。 以 下 是 用 这 种 方法 在 Verilog 测试 平台 中 使 用 for 循环 的 代码 片段 : 


reg xX, Y, 2? 

















integer k; 


initial begin 
{x,y,z} = 0; 


for (n=0; n<=16; n=n+1) 
#100 {x,y,2Z} = n; 
#200 $finish; 
end 


E. 5 小 结 


本 附录 为 编译 和 仿真 Verilog 源 代码 提供 了 一 个 完全 开源 的 解决 方案 ,尤其 是 用 Icarus Verilog 
对 TinyCPU (参见 第 8 章 ) 进行 的 编译 和 仿真 。 讨 论 了 用 测试 向 量 输 入 和 输出 进行 编译 、 仿 真 以 
及 调试 的 方法 。 还 介绍 了 GTKwave 这 个 针对 VCD 文件 的 开源 的 波形 查看 工具 。 
使 用 这 里 介绍 的 方法 ， 对 整个 TinyCPU 进行 仿真 并 且 运 行 良好 ， 尽 管 就 像 之 前 所 说 的 ， 对 于 
483] 任何 工业 项 目 ， 作 者 更 加 推荐 使 用 ModelSim 并 结合 许多 设备 制造 商 的 工具 。 





日 Octave 是 -个 开源 (免费 ) 的 数学 工具 ， 与 MATLAB 几乎 完全 相同 。 可 以 从 http :和 www. gnu. org/ software/oc- 
tave/ 处 下 载 。 
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Computer Architecture: An Embedded Approach 


TinyCPU 编译 和 汇编 代码 的 工具 





F.1 引言 


我 们 在 8. 9 节 已 经 介绍 过 如 何 对 TinyCPU 进行 代码 编写 和 编程 。 我 们 给 出 了 一 个 非常 简短 的 
例子 ， 实 现 简 单 的 整数 减法 。 在 这 个 例子 中 ,我 们 手工 将 其 汇编 成 机 器 码 并 插入 到 TinyCPU 的 
Verilog 代码 中 ( 即 ram.v 中 ) 。 这 人 么 做 的 目的 是 表明 人 工 编译 是 多 么 的 烦 珊 和 宛 长 。 

在 8.9.2 节 ， 我 们 讨论 过 Nakano 教授 给 出 的 TinyCPU 的 汇编 器 和 编译 器 ” ， 但 是 没有 给 出 任 
何 细节 。 

在 本 附录 中 ， 我 们 将 展示 整个 汇编 器 ， 解 释 其 工作 原理 ， 并 通过 8.9 节 的 例子 证 明 其 可 用 
人 性。 我们 也 会 简单 地 讨论 C 编译 器 。 


F.2 汇编 过 程 
汇编 器 是 由 一 段 程序 实现 的 ， 程 序 中 包括 汇编 语言 助 记 符 、 标 签 、 常 量 和 其 他 信息 。 引 用 


8.9. 1 节 的 简单 的 TinyCPU 程序 ， 如 程序 清单 1 所 示 。 用 来 说 明 其 语法 和 格式 ; 
程序 清单 F. 1 subtract.asm 


1 IN 

2 PUSH cnst 
3 SUB 

4 OUT 

5 HALT 

6 cnst: 3 


汇编 器 的 任务 是 生成 机 器 码 的 输出 。 机 器 码 是 由 十 六 进 制 指令 所 组 成 的 向 量 ， 代 表 CPU 中 
的 源 程 序 。 程 序 清单 下 2 中 所 展示 的 是 相同 例子 的 机 器 码 输出 : 
程序 清单 F. 2 subtract.hex 


D000 
2005 
FE001 
E000 
0000 
0003 


Lo 忆 四 和 于 


如 果 我 们 将 这 个 程序 清单 和 TinyCPU 的 指令 集 〈 见 表 8-1 和 表 8-2) 作 比 较 的 话 ， 就 能 很 容 
易 看 出 十 六 进 制 代码 的 含义 : D000 代表 IN，0000 代表 HALT 等 。 在 汇编 语言 输入 和 机 器 码 输出 
之 间 是 行 与 行 对 应 的 。 除 了 扩展 的 宏 之 外 ， 这 对 所 有 的 汇编 器 都 适用 。 





日 ”汇编 器 和 编译 器 均 可 从 网 络 上 获得 ， 网 址 ，http:/www. cs. hiroshima-u. ac. jp/ ~ nakano/wiki/。 男 外 在 本 附录 中 ， 
我 们 也 会 给 出 汇编 器 全 部 的 源 代码 。 

旺 宏 (macro) 是 一 段 代 码 。 由 于 这 些 代 码 会 被 重复 很 多 次 ， 所 以 可 以 内 预定 义 一 次 ， 并 给 定 标 识 符 ， 然 后 根据 需 
要 使 用 标识 符 替换 这 些 代码 。 宏 在 很 多 情况 下 也 可 以 被 参数 化 。 
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值得 一 提 的 是 第 2 行 和 第 6 行 。 在 第 2 行 中 ,汇编 语言 助 记 符 为 PUSH， 其 对 应 的 机 器 码 应 为 
2000 + A， 这 里 被 汇编 为 2005。 这 反映 出 压 栈 的 这 一 项 被 存储 在 内 存 地 址 为 5 的 位 置 ， 而 这 个 位 置 
是 在 第 6 行 定义 的 。 第 6 行 本 身 相 当 于 常量 3。 如 果 CPU 把 这 一 行 作为 指令 来 读 取 就 会 出 错 ， 因 为 
它 并 不 代表 一 条 指令 。 然 而 0000 代表 HALT 指令 ， 在 这 种 情况 下 CPU 执行 时 不 会 超过 第 5 行 。 


F. 3 汇编 器 

汇编 器 本 身 是 用 Pen 语言 写 的 。Perl 是 一 种 计算 机 语言 ， 它 特别 适合 文本 处 理 操作 ， 而 汇编 
过 程 实际 上 就 是 文本 处 理 操作 。 在 现代 Linux 计算 机 中 ，Perl 通常 是 被 默认 安装 进去 的 ， 其 他 的 
操作 系统 也 可 以 免费 获得 Perl。° 

程序 清单 了 3 中 给 出 了 汇编 器 程序 tinyasm.perl， 它 包含 了 正常 工作 的 汇编 器 的 全 部 源 代 码 。 
正如 所 看 到 的 ， 在 程序 一 开始 就 给 出 了 每 条 指令 对 应 的 十 六 进 制 的 值 。 

程序 清单 F. 3 tinyasm.perl 








1 #!/usr/bin/perl -Ww 

2 

3 MCODE = (HALT=>0x0000, 
4 PUSHI=>0x1000, 
5 PUSH=>0x2000， 
6 POP=>0x3000 ， 
7 JMP=>0X4000 ， 
8 J2=>0x5000， 

9 JNZ=>0x6000 ， 
10 IN=>0xD000 ， 
11 OUT=>0xE000， 
12 ADD=>0xF000, 
13 SUB=>0xF001,， 
14 MUL=>0xF002, 
15 SHL=>0xF003,， 
16 SHR=>0xF004, 
17 BAND=>0xF005, 
18 BOR=>0xF006, 
19 BXOR=>0xF007, 
20 AND=>0xF008, 
21 OR=>0xF009, 
22 EQ=>0OxF00A， 
23 NE=>0xFOOB, 
24 GE=>0xFO0c, 
25 LE=>0xF00D， 
26 GT=>0xFOOE, 
27 LT=>0xFOOF, 
28 NEG=>0xF010, 
29 BNOT=>0xF011, 
30 NOT=>0xF012)，; 
31 

32 sadar=0; 


33 while(<>){ 
CC 





O http:/www. perl. org。 
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34 push (@source, $_); 

35 if(/(\w+):/)t 

36 $label {$1}=$addr; 
37 S/\w+://; 

38 } 

39 if(/-?\d+| [A-Z]+/){ 
40 S$Saddr+t+; 

41 } 

42 } 

43 


44 print "***_ LABEL LIST ***\nNn"; 
45 foreach $1 (sort (keys ($label)))t{ 


46 printf "%S-8s®%03X\n",$1,S$label{$1}; 
47 } 

48 

49 saddr=0; 


50 print "\n*** MACHINF PROGRAM ***\n"; 
51 foreach (@source)}t{ 


52 $line = $_; 

53 s/\w+://; 

54 if(/PUSHI\Ss+(-?\d+})/)t{ 

55 printf 
"S03X:%04X\tsline", Saddr++, SMCODE{ PUSHI}+ ($lgOxfff); 

56 } elsif(/ (PUSH|IPOP|IJMPIJZ|IJNZ) \s+(\w+)/)}{ 

57 printf "%03xX:%04X\t$line", Saddr++, SMCODE{$1}+$label{$2}; 

58 Jelsif (/(-?3\d+)/){ 

59 printf "%03X:%04xX\t$line",s$addr++, $1g0xffff; 

60 } elsif(/{([A-Z]+)/}1{ 

61 printf "%03xX:%04X\t$line", $addr+t+, $SMCODE {$1}; 

62 } else { 

63 print "\t\t$line"; 

64 } 

65 } 





在 汇编 器 中 有 两 个 主要 的 循环 。 第 一 重 循环 在 整个 程序 执行 过 程 中 都 在 运行 ， 作 用 是 寻找 
任何 以 冒号 结尾 的 文本 项 〈 第 35 行 )， 很 可 能 指 的 是 一 个 标签 。 标 签 的 名 称 存储 在 一 个 叫做 
“% label” 的 列表 中 ， 扫 描 结束 之 后 立即 输出 这 些 标签 〈 第 44 ~47 行 )。 

程序 中 的 第 二 重 循环 在 汇编 器 代码 执行 过 程 中 运行 ， 作 用 是 读 取 助 记 符 和 其 操作 数 (如 果 
要 读 取 的 指令 有 操作 数 的 话 ) 。 助 记 符 直接 被 转换 成 其 映射 的 十 六 进 制 代码 ; 对 于 那些 有 操作 数 
的 助 记 符 ， 其 操作 数 的 值 也 会 加 到 十 六 进 制 数 中 。 

为 了 将 输出 部 分 从 汇编 器 中 分 离 出 来 ， 我 们 又 写 了 一 个 程序 ， 并 将 其 恰当 地 格式 化 ， 使 得 输 
出 部 分 能 够 被 直接 插入 到 ram.v 的 Verilog 源 代码 之 中 。 程 序 清单 .4 中 给 出 了 这 个 程序 ， 名 为 
mac2mem.perl。 


程序 清单 F.4 mac2mem.perl 





#!/usr/bin/perl 


1 
2 
3 while(<>}){ 
4 if(/([0-9A-F]+): ([0-9A-F]+)\s*(.*)/){ 
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print 


prinmnt 
} 


NO 


} 








"mem[12h$1],.=,16'hs27;\t\/\/\tS3\n"; 


} elsif(/\s+(\w+:}/}{ 


"\t\t\t\C\/ /STI\n"; 


在 下 一 节 中 我 们 会 介绍 怎样 使 用 这 些 程序 。 


F. 4 汇编 程序 实例 

让 我 们 再 次 使 用 程序 清单 1 中 的 减法 代码 的 例子 。 假 设 这 个 例子 存放 在 名 为 
“subtract.asm” 的 文本 文件 中 。 假 设计 算 机 系统 中 已 经 安装 了 Ped ， 我 们 可 以 通过 以 下 命令 执行 
tinyasm.per| 来 汇编 这 段 源 代码 : 

perl tinyasm.perl subtract.asm 

这 段 程序 的 输出 结果 已 经 复制 到 程序 清单 5 中 。 程 序 清单 .5$ 给 出 了 标签 列表 (本 例 中 
只 有 一 个 ) 和 助 记 符 与 十 六 进 制 代码 之 闻 一 对 一 的 匹配 结果 。 


程序 清单 F. 5 


subtract.asm 执行 tinyasm.perl 的 输出 





*** LABEL LIST **w* 


cnst 


005 


ww MACHINE PROGRAM *** 


001:2005 
002 :FE001 
003:E000 
9 004:0000 
10 005:0003 


1 
2 
3 
4 
5 000:D000 
6 
7 
8 


IN 

PUSH cnst 
SUB 

OUT 

HALT 
cnst: 3 


通常 情况 下 ， 我 们 会 将 输出 放 到 一 个 文件 当中 : 


perl tinyasm.perl subtract.asm > subtract .out 


下 一 步 就 是 使 用 mac2mem.perl 程序 将 这 个 输出 的 格式 标准 化 ， 从 而 将 其 插入 到 ram.v 中 。 我 
们 使 用 下面 的 命令 来 处 理 保 存 的 这 个 文件 : 


perl mac2mem.perl Subtract .out > subtract .OUL .V 


输出 结果 按照 Verilog 源 代码 的 语法 格式 进行 了 标准 化 (将 这 个 格式 与 程序 清单 8.6 中 ram.v 
的 格式 化 程序 进行 对 比 );， 如 程序 清单 .6 所 示 。 这 个 可 以 直接 插 人 到 Verilog 源 代 码 中 ， 然 后 如 
8. 9. 1 节 的 最 后 部 分 所 描述 的 那样 ， 将 整个 设计 程序 进行 编译 和 仿真 。 
程序 清单 F. 6 减法 代码 执行 mac2mem.perl 之 后 的 输出 








全 人 由 中 有 一 


mem[l12h000] 
mem[l12’h0011 
mem{[12’'h002] 
mem[12’n003] 
mem[1i2’h0041 
mem!}2'h005) 





16'hD0007 /7/ IN 
16'nhn2005; // PUSH cnst 
16'hFO01; // SUB 
16'nE000; // OUT 
16‘h0000; // HALT 
15’h0003; // cnst;: 了 


DL 
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F.5 编译 器 

TinyCPU 的 发 明 者 ，Nakano 教授 已 经 设计 了 一 个 编译 器 ,事实 上 ， 根据 功能 层次 的 不 同 ， 
可 以 分 为 两 个 编译 侨 。 

主 TinyCPU 编译 器 叫做 tinyc， 是 用 标准 的 编译 器 生成 工具 flex 和 bison 写成 的 ， 有 兴趣 的 读 
者 可 以 参考 Nakano 教授 的 wiki 页 面 以 获取 编译 器 执行 的 细节 。 我 们 在 这 里 不 转载 编译 器 的 代码 ， 
但 是 可 以 从 上 面 提 到 的 wiki 页 面 上 进行 下 载 (例如 tinyc1 和 tinycy， 在 它们 各 自由 flex 和 bison 
处 理 过 后 生成 -个 C 语言 源 。 这 个 C 语言 源 可 以 被 编译 成 可 执行 的 文件 ， 叫 做 tinye， 而 这 个 
tinyc 实际 上 就 是 编译 器 ) 。 实 际 上 tinye 可 以 支持 一 个 C 语言 子 集 的 编译 。C 语言 的 子 集 遵循 C 
语言 的 语法 结构 ， 但 是 可 以 使 用 几 个 简化 和 内 置 的 操作 。 程 序 清单 已 7 中 给 出 了 一 个 C 语 言 源 
代码 的 例子 ， 它 能 够 执行 与 之 前 例子 相同 的 减法 运算 。 

程序 清单 F. 7 subtract.c 











1 out(in-cnst) ， 
2 halt; 


3 int cnst=3; 





我 们 注意 到 尽管 这 个 子 集 与 C 语言 很 相似 ,但 是 显而易见 还 是 有 几 点 不 同 : 内 四 函 数 out() 
设置 了 输出 缓冲 区 ， 内 置 变量 in 读 取 输入 端口 的 数据 ， 并 且 还 使 用 了 halt 指令 。 另 外 , 不 像 C 
语言 在 程序 开始 处 声明 变量 ， 这 个 子 集 是 在 程序 的 结尾 处 声明 变量 一 一 如 果 我 们 将 变量 的 声明 
放 在 程序 的 开头 ， 那 么 这 个 变量 将 会 存储 在 内 存 中 的 第 一 个 位 置 ， 一 且 TinyCPU 开始 运行 ， 它 就 
会 从 读 取 这 个 常量 开始 执行 ， 并 将 其 作为 指令 试 着 去 执行 。 

除了 这 些 不 同 ， 这 个 子 集 和 C 程序 很 相似 ， 而 且 与 写 汇 编 器 相 比 较 ， 这 个 编译 器 的 代码 写 
起 来 要 更 容易 。 尤 其 是 tinye 编译 器 的 强大 之 处 在 于 其 能 够 明确 地 阐述 基于 栈 的 方程 式 〈 这 一 点 
在 例子 中 并 没有 体现 ) 。 实 际 上 , 在 将 复杂 的 方程 式 转换 成 TinyCPU 需要 的 逆 波 兰 表达 式 的 时 
候 ， 这 个 编译 器 完全 有 能 力 实现 。 

程序 清单 下 8 中 给 出 了 在 TinyCPU 下 编译 subtract.c 源 代码 后 的 输出 。 

程序 清单 F. 8 subtract.out 








IN 
PUSH cnst 


1 
2 
3 
4 OUT 
5 
6 


cnst: 3 





我 们 没有 办 法 将 这 个 输出 与 程序 清单 了 1 中 所 给 出 的 汇编 代码 区 分 开 来 ， 因 为 这 个 输出 实际 
上 就 是 原来 的 汇编 代码 ! 然后 我 们 通过 Perl 汇编 器 tinyasm.perl 用 通常 的 方法 创建 机 器 码 ， 并 了 且 
用 mac2mem.per 来 将 其 按照 Verilog 的 语法 格式 进行 标准 化 。 





F.6 小 结 


本 附录 首先 手工 汇编 了 一 个 简短 的 TinyCPU 程序 。 由 于 这 个 过 程 非常 烦琐 并 且 需 要 不 断 重 
复 ， 于 是 我 们 引出 了 汇编 器 。 汇 编 器 几乎 能 将 汇编 助 记 符 一 对 一 地 转换 成 十 六 进 制 机 器 码 ， 另 外 





日 可 以 参考 Nakano 教授 的 wiki 页 面 http :Awww. cs. hiroshima- u. ac. jp/ ~ nakano/ wiki/ 以 获取 更 多 细节 。 
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还 能 识别 出 标签 的 位 置 。 

尽管 汇编 器 相对 于 手工 汇编 过 程 来 说 已 经 是 一 个 很 大 的 进步 ， 但 是 高 级 语言 的 编译 器 会 提 
供 进一步 的 改进 。 于 是 我 们 引入 了 TinyCPU 编译 器 。 为 了 使 创建 TinyCPU 程序 的 过 程 变 得 容易 
些 ， 特 别 是 那些 涉及 数学 计算 的 过 程 ，TinyCPU 的 编译 器 使 用 C 语言 的 语法 格式 ， 并 对 其 进行 了 
一 些 补充 和 删 减 。 

这 些 工 具 ， 尤 其 是 编译 器 ， 可 能 不 是 最 终 的 解决 方案 。 对 于 汇编 器 和 编译 髓 来 说 ， 都 还 有 进 
行 改进 的 余地 ， 我 们 或 励 有 兴趣 的 读者 对 其 进行 改写 和 扩展 。 最 重要 的 是 ， 本 书 的 作者 想 要 再 次 
传达 其 在 第 8 章 结尾 处 的 信息 鼓励 读者 运用 已 有 的 知识 去 增强 TinyCPU (以 及 它 的 汇编 器 、 编 
译 占 ) 的 功能 ， 并且 可 以 进一步 设计 他 们 自己 的 解决 方案 。 
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efficiency (效率 ) ，154 
full associative (全 连接 )，147-148 
layering (层次 )，144 
MESI protocol (MESI 协议 }，155-156 
performance of (运行 )，153-154 
replacement algorithms ( 替换 算法 ) ，149-1S3 
set associative (指令 集 联合 ) ，145-147 
tag (标签 )，145 
worked example (应 用 示例 )，146，147， 
151, 152 
Cache memory (缓存 ) ，68 ，104，111，121 ， 
143-144 
Cacti, 452-454 
Cambridge University (剑桥 大 学 ), 4,， 75 
CAN, See Controller area network 
Canonical signed digit (规范 的 带 符号 数 ) ，441 
Carry 〈 进 位 ) 
look-ahead 〈 超 前 ) ，30 
propagation 〈 传递) ，30 
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propagation example (传递 示例 ) ，31 
CDC6000, 7 
Cell processor〈 单 元 处 理 器 ) ，238 ，239，240 
Churchil，William (人 和 名)，3 
CISC, See Complex instruction set computer 
Clock (时钟 》 

asynchronous (异步 ) ，434 

cycle (周期 ) ，110 

delay locked loop (延迟 锁 相 环 ) ，301 

domain ( 域 )，434 

double edged (双边 )，110 

generation of (生成 )，301 

oscillator (振荡 器 )，301 

phase locked loop 〈 锁 相 环 ) ，301 

solutions (解决 方法 ) ，305 

speed (速度 ) ，110 

synchronous logic 〈 同步 逻辑 ) ，300 

system (系统 ) ，294-295 
Cloud computing ( 云 计算 ) ，426 
Cluster computers ( 机群) ，240 ，425 
Co-processor (协同 处 理 器 ) ，1$7-1$8 ，165-166 
Co-simulation (协同 仿真 )，376 
Co-synthesis (协同 综合 )，376 
Colossus (请 人 ), 3, 4, 6 
Commercial-off-the-shelf ( 现 有 的 商用 ) ，428 
Common mode noise 〈 公 用 模式 噪点 ) ，263 
Communications hardware (通信 人 硬件) ，203 
Compiler (编译 器 ) 

error trapping (异常 陷入 )，142 

handling of stored data 〈 存储 数据 控制 ) ，105 

loop handing (循环 控制 ) ，204 

optimizations (优化 ) ，105 

support for branch prediction (分 支 预 测 的 支持 )，185 

support for VLIW (VLIW 的 支持 )，425 
Complex instruction set computer (复杂 指令 集 计 算 

机 )，20，76- 79，80，93，95，166，193 ， 
199，371] 

Computer design 《计算 机 设计 ) ，373-377 
Computer generation 〈 计算 机 发 展 阶 段 ) ，5-10 

fifth (第 五 代 ) ，9-10 

first (第 一 代 ) ,6 

fourth (第 四 代 ) ，8-9，173 

second (第 二 代 ) ,7 

third (第 三 代 ), 7-8 
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Computer system bus 〈 计算机 系统 总 线 ) ，259 
Condition (条 件 》 
codes 《代码 ) ，87 
flags (标记 ) ，182 
simple fags (简单 标记 ) ，380 
Control ( 控制) 
self-timed (时 间 自 控 ) ，72，73-74 
distributed (分 布 式 ) ，72 
of a pipeline (流水 线 ) ，175 
of asynchronous machine (异步 机 器 ) ，437 
simplified (简单 化 ) ，72 
Control program for microcomputers (微型 计算 机 的 控 
制程 序 ) ，8 
Control unit (控制 单元 ) ，70-75 
Controller area network (控制 领域 网 络 CAN) ，258， 
428 ，429 
COTS, See Commercial- off-the- shelf 
CPI, See Cycles per instruction 
CP/M, See Conirol program for microcomputers 
Cryptography (密码 学 ) ，202 
CSD, See Canonical signed digit 
Cyeles per instmction (周期 每 指令 ) ，111 ，198-201 
Cyrix，161 


D 


DAG, See Data address generator 
Dallas Semiconductor (达拉斯 半导体 )，258 
Data (数据 ) 
compression (压缩 ) ，202 
format and representation (格式 和 表达 )，99-103 
handling (处 理 ) ，98-109 
stream ( 流 )，16-17, 341 
Data address generator 〈 数据 地 址 生成 器 ) ，205， 
206 
Data dependency (数据 相关 ) ，179-180 ，196 ，200 
Data link layer (数据 连接 层 )，450-451 
DDC, See Display data channel 
Debug (调试 ) ，295 
using serial port (使 用 串口 )，335-336 
DEC, 7, 112, 340 
Alpha 21264 ,225 
StrongARM , See StrongARM 
Design ownership (设计 归属 )，373 
Design partitioning (设计 划分 ) ，353 ，375 ，376 


Dhrystone ，benchmark ，( Dhrystone 标准 检测 程序 ) 
112-113 

Differential signalling (差分 信号 )，262-264 

Digital filter (数字 滤波 器 ) ，38 ，202 

Digital signal processor (数字 信号 处 理 )，110，112， 
123, 126, 140 

Dinero (Dinero 软件 工具 ),，452, 453-455 

Direct memory access ( 直接 存储 器 访问 ) ，104， 
254-255, 261 

Disk operating system (磁盘 操作 系统 )，8，162， 
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Display data channel (显示 数据 通道 )，264 

Distributed computing (分 布 式 计算 )，444-445 

Division (除法 )，41-43 

DMA, See Direct memory access 

DOS, See Disk operating system 

DRAM (动态 RAM) ，76，114，144，258 ，316 ， 

317-323 
DSP, See Digital signal processor 
Dual core processor (双核 处 理 器 ) ，234 ，271 


E 


EDAC, See Error detection and correction 
EDSAC, 4 
EDVAC, 4 
EEPROM, 67, 310 
EIA232 interface ( EIA232 接口 ) ，264 ，265 ， 
335, 451 

EIA422 interface (EIA422 接口 ) ，264 
EIA485 interface (EIA485 接口 ) ，264 
EISA, See Extended indusiry standard architecture 
Electromagnetic interference (电磁 干扰 )， 

283 ，305 
Electronically erasable 

programmable read only 

memory ( 电 可 擦 除 可 编程 ROM)，See EEPROM 
Embedqed future 〈( 千 人 式 未 来 ) ，66 
Embedded designs (能 人 式 设 计 ) ，115 
EMI, See Electromagnetic interference 
Endian (上 段 ) 

big (大 端 )，20-21 

little 《小 端 ) ，20-21 

switching (转换 ) ，179 

worked example (应 用 示例 )，20-23 


FNIAC, 3, 4. 6 
Fnigma code ( 恩 尼 格 玛 编码 )，3, 6 
EPIC, See Explicitly parallel instruction computing 
EPROM, 69, 309-310 
Erasable programmable read only memory (可 擦 写 可 
编程 ROM ) ，See EPROM 
下 RC32 ，252 ，343 
Error detection and correction (错误 检测 与 纠正 )， 
340-345 
Ethemet (以 太 网 }，254 
interface (接口 ),，266 
memory mapped driver ( 内存 上 映射 驱动 器 ) ，329 
processing ( 处理 ) ，235 
service jayers 【服务 层 ) ，449 
European Space Agency (欧洲 宇航 局 ) ，343 
Execution (执行 ) 
out of order ( 尤 序 )，180，196,，228,，240， 
246, 293 
Fxplicitly parajlel instruction 
computing ( 显示 并 行 指令 计算) ，199 ，422 
Extended industry standard 
architecture (扩展 的 工业 标准 结构 )，258，259 





F 


FDIV bug (FDIV 错误 ) ，332 
Ferranti (Ferranti 公司 ) 112 
Mark 1 (Ferranti Mark 1 计算 机 ) ，5 
Field programmable gate array〈 现 声 可 编程 门 阵列 )， 
166, 237, 247 ,325, 340, 346, 
351, 3$5, 356, 357, 362, 363, 
369，370，371，372，374 ，375 ， 
376 ，379，380，382 ，396 ，408 ， 
427, 428, 429, 430, 471 
Finite impulse response filter ( 有 限 脉冲 响应 滤波 
器 ) ，125 
Finite state machine 《有限 状态 机 )，70 
FIR, See Finite impulse response filter 
Firewire 〈 一 种 串 行 标准 ) ，265 
Flash memor (闪存 ) 67, 265, 310, 311, 312， 
314，326，339 
Floating point《 浮 点 ) ,46-54，106 
data types (数据 类 型 ) ，159 
emulation (仿真 )，108, 159-161 
hardware 《硬件 ) ，202 


power consumption ( 功 耗 ) ，160 
processing (处理 ) ，$4-60 ，108 
unit (单元 ) ，19，S$4，82 ，108 ，121 ， 
158-161, 162, 163, 195 
Flowers，Tommy (人 名), 3 
Flynn 
classification (分 类 )，16-17 
Michael (人 名) ，15，16-17，230 
MIMD (多 指令 流 多 数据 流 ) ，16， 
231-235, 271 
MISD (多 指令 流 单数 据 流 ) ，16，17，230 
SIMD 〈 单 指令 流 多 数据 流 ) ，16，17，18，161， 
164 ，165 ，230 、233 ，293 
SISD 〈 单 指令 流 单 数据 流 ) ，16-17 ，230， 
231-235 
FORTRAN, 109 
Forwarding (转发 ) 
fetch-fetch( 取 指 - 取 指 }，191，192 
store- store 《( 写 回 - 写 四)，191,，192 
FPGA, See Field programmable gate array 


137 、 


17，230， 


FPU, See Floating potint urat 
Fragmentation (碎片 ) 

extemal 《外 部 的 )，138-139 

intemal (内 部 的 )，138 
Freescale ( 飞 思 卡 尔 )，80 
FSM, See Finite state machine 
Full adder 《全 加 器 ) ，29 
Furber 


Steve (人 名 ) ，159 
G 


GEC Plessey ( GEC Plessey 公司 ) ，258 
GFLOPS (每 秒 十 亿 次 浮 点 运算 ) ，111 
Glue iogic〈 黏 合 逻 辑 ) ，372-373 
Google, 10, 83, 230, 435 

gprof (一 种 软件 工具 ) ，115 

CPRS (通用 分 组 无 线 服务 ) ，463 ，464 
Graphbics processing ( 图形 处 理 ) ，202 
Grid computing (网 格 计算 ) ，426 
GSM, 34 ，463 

GTKwave (工具 ), 414, 471, 472, 476,481] 
Guard bit (保护 位 )，59 


H 


Half adder ( 半 加 器 ) ，29 
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Hamming code ( 汉 明 码 )，341，342 
Hardware acceleration ( 便 件 加 速 )，201-209 
Hardware software co- design ( 软 硬 件 协同 设计 )， 
373-377 
Harvard architecture (哈佛 结构 ) ，17，125， 
126, 143 
Hazard 
avoidance in asynchronous machine (异步 的 避免 ) 
(机 器 ) ，437-438 
data (数据 ) ，179-180 ，196 
pipeline remedies for (流水 线 补偿 ) ，190 
read after write ( 写 后 读 )，190, 196 
structural (结构 的 )，196 
write after read ( 读 后 写 ) ，180，190 ，196 
write after write (3 后 写 ), 180, 181, 190, 196 
Heterogeneous architecture 〔 异 构 体 系 结构 ) ，237 
High level language ( 高 级 语言 ) ，81，90，， 
369 ，425 
Homogeneous architecture 〈 辣 构 体系 结构 ) ，237 
Huffman coding 〈 和 霍 夫 曼 编 码 ) ，90，91，92 
Hyperblocks (特级 代码 段 ) ，228 
Hypercube 〈 超 立方 体 ) ，434 


I 


IO pins 《输入 /输出 引 脚 ) 
configuration (配置 )，297-298 
multiplexing (多 路 复 用 ) ，296 
IA-64 architecture (IA-64 体系 结构 ) ，423 
IBM, 5, 78, 79, 112, 238, 258, 259, 
340 ，435 
Cell processor ( 单元 处 理 器 ) ，See Cell 
Processor 
PC, 79, 346 
power architecture ( Power 秘 构 )，238，239 
RS6000, 5 
System/360, 8, 75, 240, 246 
Icarus Verilog (软件 工具 ),，471, 473,，474 
ICE, See In-circuit emulator 
IDE, See Integrated drive electronics 
IEEE 802. 11n, 460-461 
IEEE 802. 16 ，461 
IEEE1149 JTAG, 295, 296, 337, 353, 408 
IEEE1284 interface，264，265 
IEEE754, 19, 46-47 


arithmetic (算术 的 )，55-56,57,，58 
denormalised mode ( 非 规格 化 模式 ) ，49-50， 
52-53 
division (除法 ) ，56 
double precision ( 双 精 度 )，159 
extended intermediate format (扩展 中 间 格 式 )， 
56, 57-60 ,159 
in industry (在 工厂 )，158 
infinity ( 无穷大 ) ，5$0，5$1 
modes 〈 模 式 ) ，47-51 
multiplication (乘法 ) ，$6，108 
NaN (不 是 一 个 数 )，50,，51 
normalised mode (规格 化 模式 )，48-49，51-52 
number range (数字 范围 )，51-54 
on fixed point CPU (定点 CPU)，108 
processing ( 处理) ，54-60 
rounding ( 舍 人 ),，60 
single precision ( 单 精度 ) ，53-54 
standard (标准 )，159 
worked example (应 用 实例 ) ，48-49，S0 ，54 ， 
57-58 
zero ( 零 ),，50, 51 
IEEE802. 11 a, b and g, 460, 470 
IIC, See Inter-1C communications 
IIR, See Infinite impulse response filter 
Immediate constants 〈 中间 常 数 ) ，88-90 
In-circuit emulator (内 置 仿真 器 ) ，337 
Indirect addressing (间接 寻 址 )，94 
Industry standard architecture (工业 标准 结构 )， 
258, 259 
Infinite impulse response filter (无 线 脉冲 响应 滤波 
器 ) ，125 
Information hiding (信息 隐藏 ) ，363 ，364 
Instruction 《指令 ) 
application specific (专用 ) ，166 
condition setting bit (条 件 设 置 位 ) ，82，85 
custom (定制 )，202 
decode (编码 ) ，84-90 
fetch (获取 )，84-90 
format (格式 ) ，80 
handling (控制 )，81-98 
level parallelism (级 并 行 )，229,，230, 422 
microcode 《 微 指令 )，75-77 
set ( 集 )，81-84,95 


set regularity 〈 集 规整 ) ，193 
stream 〈 流 ) ，16 
translation 《翻译 ) ，76 
Instructions per cycle 〈 每 周期 指令 数 ) ， 
198-201，236 
Integrated drive electronics (IDFE 接口 ) ，69，258 
Integration (整合 ) ，375 
Itel，10，11，78，79，112 ，159 ，161 ， 
164, 165, 313, 423, 439 
4004, 5 
8086, 1, 75, 260, 291, 428 
8088，162，260 
80386 ，157 
80387，157 
80486 ，143，1S8，332 
Core, 237, 271 
IXP425, 254, 277 
Pentium, 161-163, 423 
Pentium Pro，143 
SA1110，428 
StrongARM ，See StrongARM 
XScale, 143, 277 
Inter-IC communications (IC 间 通 信 ) ，258 ，292 
Intermpt ( 中断) 
advanced handlers 〈 高 级 处 理 ) ，278 
and real time (实时 性 )，267 
event (事件 ) ，272 
flag (标志 )，272 
handiers and memory management (控制 和 内 存 
管理 ) ，141 
handling 《控制 )，271-280 
importance of (重要 性 ) ，271-272 
queue (队列 )，273 
redirection 〈 重 定位 ) ，276-278 
service routine 〈《 服务 例 程 ) ，209，268 ，277 
sharing (共享 ) ，278-279 
software (软件 ) ，279-280 
Interrupt vector ( 中 类 向量) ，273 
IPC, See Instructions per cycle 


ISA, See Industry standard architecture 


J 


java (高 级 语言 )，109，165，173 
JTAG, See IEEE]1149 JIT4C 
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JTAG for booting a CPU (JTAG 训导 CPU), 339 
K 

Kermel (内 核 )，142,，167，327，328，357 
L 


Lattice 
Mico32 (Lattice Mico32 处 理 箱 )，378 
Linux, 83, 142, 164, 200, 329, 435, 471 
Beowulf, 240 
determination of MIPS (MIPS 的 确定 ) ，111 
embedded (各 人 的 )，142，326,，356,，377，378 
uCLinux ，325 
Load store architecture ( 存 取 体系 结构 )，194 
Joosely coupled tasks (人 松 克 合 任务 ) ，425 
Low voltage differential signalling (〈 低 电压 差分 
信和 导 ) ，259，262-264 
LVDS，See Low voliage differential signalling 


M 


MAC, See Multiply accumulate unit 
Machine parallelism (机 器 并 行 ) ，231 
Manchester University ( 紧 彻 斯 特大 党 ) ，4，5，132 
Marconi ( 马 可 尼 式 无 线 电报 ) ，258 
MareNostmm, 11 
Massachusetts Institute of Technology 〈 呆 省 理工 学 
院 ) ，4，5 
MCA ( 微 通道 体系 结构 ) ，258，259 
MCM, See Mulii-chip module 
Media independent interface (多 媒体 独立 接 11) ， 
266 
Memory (存储 器 ) 
access ( 访问) ，125 
access in C (基于 C 诺言 访问 )，331 
background (背景 )，307 
burst mode 〈 突 发 模式 ) ，110 
cycle (周期 )，126 
DRAM (动态 RAM) ，316，317-319 
DRAM addressing (DRAM 如 址 )，319-323 
DRAM refresh (DRAM 刷新 ) ，317，319 
DRAM stmucture (DRAM 结构 ) ，320 
EDO DRAM ，323 
EEPROM 〈 电 可 据 除 可 编程 只 该 存储 器 ) ，362 
EPROM (可 擦 除 可 编程 只 读 存 储 器 ) ，309 
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339 ，362 
flash (闪存 )，311,，351 
flash blocks (内 存 模块 )，314 
flash memory control (闪存 控制 ) ，313 
for an FPGA core (对 于 FPGA 核心 ) ，382 
fragmentation ( 雄 片 )，138 
in embedded systems ( 棒 和 人 式 系统 )，325-332 
map of ARM 9 (ARM9 的 上 映射)，326 
map of MSP430 ( MSP430 的 映射 ) ，330 
mapped registers (有 里 射 寄存 器 ) ，329 
NAND flash (NAND 闪存 ) ，311 
NOR flash ( NOR 闪存 ) 311 
on-chip (片上 ), 114, 126 
overlays 〈 履 盖 ) ，323-325 
pages (分 页 )，323-325 ， 
parity checking (奇偶 校 验 ) ，340，341 
pin swapping of ( 引 脚 转换 ) ，358-359 
PROM 〈 可 编程 只 读 存 储 器 ) ，309 
protection (保护 ) ，140-142 
RAM，314-323 
remapping ( 重 映射 ) » 277 
ROM, 308-314 
SDRAM, 323, 359 
serial flash ( 串 行内 存 )，311 
SRAM, 316, 351, 359, 362 
stack (堆栈 ) ，138 
VRAM, 323 
Memory management unit (存储 管理 模块 ) ，19 ，68 ， 
104, 121, 292, 323-324 
address translation cache (地 址 转换 高 速 缓冲 ) ， 
140 
advanced designs (高 级 设计 )，139-140 
operation (操作 ) ，133 ，135-137 
rationale (原理 ) ，133 
translation look- aside buffer (转换 后 援 缓冲 器 )， 
140 
worked example 《应 用 示例 ) ，137 
Mesh (网 格 ) ，433-434 
MESI 
in shared memory system (共享 内 存 系统 )，433 
protocol (协议 )，155 
worked example (应 用 示例 ) ，157 
MFLOPS (每 秒 百 万 次 浮 点 运算 ) ，111 
Micro channel architecture ( 微 通道 体系 结 购 ) ， 


See MCA 
Microcode ( 微 指令 )，75-77 
Microprogramming ( 微 编程 ) ，75 
MIMO, 460 
MIPS, 67, 78, 111, 114, 140, 189, 341 
Mitel ,258 
MMC, See Multimedia card 
MMU, See Memory management unit 
MMX , See Mulitimedia extensions 
ModelSim 〈 工 具 软 件 ) ，409 ，471 
Moore ' s law (摩尔 定律 ) 1, 77,235 
Motorola ，79 
68000 ，20，67 ，80 ，205 
Coldfire，80 
MP3, 66, 115, 233 - 
MS- DOS, 346 
Multi-chip module (多 芯片 模块 )，237 
Multi-core (多核) ，237 
Multimedia card (多 媒体 卡 }，265，292 
Multimedia extensions (多 媒体 扩展 )，17， 
82, 158, 159, 161-165, 230 
Multiple- valued logic (乘法 逻辑 )，438-439 
Multiplication (乘法 ) ，34-41 
Booth " s method (Booth 算法 ) ，34，38-41 
on a small machine (小 型 机 ) ，106 
partial products (部 分 积 ) ，35-38，440 
repeated addition 〈 加 法 迭代) ，34 
Robertson " s method ( Robertson 算法 ) ，34 ，38 
shift and add ( 移 位 加 )，38 
Multiplication ，by repeated addition (乘法 ， 多 次 
加 法 ) ，34 
Multiply accumulate unit ( 乘 累加 单元 ) ，123 ， 
195 ，202 


NASA 
computers (计算 机 )，340 
space shuttle (太空 火箭 ) ，8 ，341 
Near field communication ( 近 距 离 通 信 )，466-467 
Network layer (网 络 层 ) ，451 
Newton, Isaac, 14 
Number (数字 ) 
altemative formats (替代 格式 ) ，438-442 
binary coded decimal ( BCD 编码 ) ，26 


complex (复数 ) ，109 
conversion examples (转换 例子 ) ，25-26 
excess-n ( 移 码 ) ，24，26 
(m.n) format (mn 格式) ，26 
format (格式 ) ，23-28 
fractional (定点 的 ) ，27 
fractional arithmetic 〈 定 点 运算 ) ，44 
fractional examples (定点 例子 ) ，27，44 
fractional multiply 《定点 乘法 )，45 
fractional notation ( 完 点 表示 法 ) ，26-27 
negative two "s complement (负数 的 补 码 )， 
24, 25 
one’s complement ( 反 码 )，24 
Q-format (Q- 格 式 ),，26, 43, 161 
sign extension 《符号 扩展 )，27-28 
signed digit representation (符号 位 的 表达 )， 
439-442 
two’”s complement ( 补 人 三) ，24 
unsigned binary (无 符 叶 二 进 制 ) ，23-24 


O 


Obfuscation (模糊 化 ) ，364 
of software (软件 的 ) ，361 
OFDM, See Orthogonal frequency division multiplexing 
Open systems interconnection ( 开放 系统 互 连 ) ， 
259, 449-451 
Orthogonal frequency division multiplexing ( 正 交 频 
分 复 川 ) ，460 


OSI, See Open systems interconnection 


P 


Parallel (并行) 
at different levels (不 同 层 次 ) ，230 
considerations (考量 ) , 431 
coupling 〈 耦合 ) ，425 
for performance (对 于 性 能 ) ，235-237 
grain size (粒度 大 小 )，434 
interconnecting links ( 互 连 链 接 )，432-434 
machines (机 器 ) ，199，230 ，425 
processing (处 理 ) ，200 
speedup (加速)，237 
worlds biggest machines (世界 最 大 机 器 ) ，435 
Parallel adder (并 行 加 法 器 ) ，29-31 
Parallel architectures ( 放行 体系 结构 )》 ，433 


Parallel port (并 11)，103 

Parallel processing unit (并 行 处 理 单元 )， 
427-431 

Parallel topology (并 行 拓扑 )，433 

PC-card, 265 

PC/104, 259, 261 

PCB characteristics (PCB 特点 


A 


) ，354 
PCI, See Peripheral component interconnect 
PCI express (PCI 增强 型 ) ，258 ，264 
PCMCIA, See Personal computer 

Memory card international 

association 
PDA, See Personal digital assistant 
PDP-1, 7 
Performance 《人 性能) 

assessing 〈 评 佑 ) ，113-115 

measures (测量 ) ，111-113 
Peripheral memory mapped (内存 映射 外 设 )，192 
Penipheral component 

interconnect ( 外 设 单 元 互 连 ),，258，26] 
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Personal computer memory card internationajl association 


(个 人 计算 机 存储 卡 国 际 协会 ) ，259，265 
Personal digital assistant (个 人 数字 助理 ) ，15 ， 
34, 439 
Pervasive computing 〈 普 适 计算 ) ，426 
PFLOPS (每 秒 peta 次 评点 运算 ) ，111 
Phase locked loop 〈 锁 相 环 ) ，293 
Physical layer (物理 层 ) ，450 
PIC (PIC 机 器 ) ，67 
Pin swapping during layout (布局 时 引 脚 转换)， 
358-359 
Pipeline ( 流水线) ，175 
compiler support for (编译 器 支持 )，185 
dynamic (动态 ) ,177，194 
efficiency (效率 )，188 
FPU ( 浮 点 处 理 单元 ) ，158 
mode change (模式 转换 )，177-179 
multi-function (多 功能 ) ，175-177，194 
multiple issue superscalar (多 发 射 超标 量 ) ，197 
speedup (加速)，175 
split (分 离 ) ，186 
stall (停止 ) ，187 
superscalar ( 超标 量 )，195，197 
superscalar performance (超标 量 性 能 ) ，198 
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throughput (吞吐 量 ) ，173 

PLL, See Phase locked loop 

Plug and play ( 即 插 即 用 ) ，260 

Power (电源 ) 
due to current switching (电流 交换 ) ，304 
ideas for reduction of (减少 )，307 
in semiconductors 〈 半 导体) ，302 
low power design (〈 低 功 耗 设计 ) ，305-307 
on self test ( 自 测 )，326 

PPU, See Parallel processing unit 





Principles 

of locality (定位 原则 )，148-149 
Programmable logic device (可 编程 逻辑 设备 ) ，362 
Propagation delay (传递 延迟 ) ，303 
Propagation delay ，example (传递 延迟 ， 示 例 ) ，134 
PS/2, 264 
Pyramidal ，view of memory (金字塔 形 ， 内 在 结构 )， 

68 


Q 


Quad core processor ( 四 核 处 理 器 )，237，295 
Quake (震颤 ),，112 


R 


Radiation damage (辐射 损害 ) ，340 
RAM, 67, 69, 76, 314-323 
RAMBUS, 258 
Ramdisk ( Ram 磁盘 )，327，328-329 
Random access memory (随机 访问 存储 器 ) ，See 
RAM 
RDRAM, 144 
Re-entrant code ( 重 进 代码 )，279 
Read only memory ( 只 读 存储 器 )，See ROM 
Real-time (实时 )，113 
definitions (定义 ) ，267-268 
hard or soft system (硬件 或 软件 系统 )，266-267 
issues 《问题 )，266-271 
operating system (操作 系统 })，268，270-271， 
326, 356, 379 
scheduling (计划 )，270 
stimuli (激励 ) ，267 
task (任务 )，268 
Reconfigurability ( 可 重 构 性 ) ，166 
Reduced instruction set computer (精简 指令 集 计算 


机 )，20，67，72，76，79，80，853，93， 
95, 111, 159, 161， 173, 193, 199, 
273 ，371 
Reed-Solomon 〈 李 德 所 罗 门 处 理 机 ) ，342 
Register (注册 机 ) 
shadow (阴影 )，209，280 
Relative addressing (相对 寻 址 ) ，188 
Remote processing (远程 处 理 ) ，427 
Reservation station (保留 基站 )，241 
Reservation table (保留 表 ) ，174，181，184 
Reset ( 重 置 ) 
circuitry 〈 单 回路 ) ，294 
controller (控制 器 )，346 
supervisory IC (监测 IC)，346 
Retirement algorithm 《退回 算法 )，137-138 
Reverse engineering ( 反 | 自 工程 ) 
analytical steps 《分 析 步 又 ) ，349 
mitigation (防范 )，363 
of computer devices (对 于 计算 机 设备 ) ，349 
of software (对 于 软件 )，356 
structure anaysis (结构 分 析 ) ，351-352 
the process of ( 运行 ) ，349-353 
Reverse Polish notation 〈 逆 波兰 表示 法 ) ，96-98 
RISC, See Reduced instruction set computer 
Rockwell 6502, 10, 79 
ROM, 67, 76, 308-314 
RPN, See Reverse Polish notation 
RS232, See EJA232 inierface 
RS422, See EIA422 interface 
RS485, See ElA485 interface 


S 


S3C2410, See Samsung S3C2410 

Samsung (三 星 公 司 ) 
S3C2410，255，256，288 ，291，298 ，326 ， 

339 ，370 ，459 

S3CR650B, 466 

Scan path ( 扫描 通路 ) ，336 

Scheduling (安排 》 
deadline monotonic (时 限 单调 ) ，270 
earliest deadline first ( 最早 时 限 优 先 )，270 
most important first (最 重要 优先 )，270 
rate monotonic (〈 频 度 单调 ) ，270 

Scoreboard (记分 牌 ) ，196 


Scoreboarding 〈 沁 分 牌 ) ，196 
Scrambling of bus signals (总 线 信 轩 加 扰 )，359 
SCSI, See Small computer systems interface 
SD, See Secure digital 
SDRAM, 76, 126, 127, 144, 275, 292, 326 
Secure digital (安全 位 ) ，265 ，292 
Segmentation (片段 )，138 
Serial peripheral interface ( 蛙 行 外 围 接 口 )，258， 
324 
Serial port ( 串 [1)，103，331，370 
Sign extension (符号 扩展 ) ，27-28 
Signed digit ( 符 续 位 )，439-442 
Simulation (仿真 ) 
of FPGA code ( FPGA 代码 ) ，471 
of Verilog designs (Verilog 设计 ) ，475 
Sinclair (Sinclair 公司 ) ，112 
Sir Clive , 79 
ZX Spectrum, 79, 283 
ZX-79, 5 
Single chip computer 〈 单 芯片 计算 机 ) ， 293, 316 
Single event upset ( 单 粒 子 翻转 ) ，340 
Single T-bit branch predictor ( 单 T- 比 特 分 支 预 测 )， 
212-214 
Slave processor ( 从 处 理 器 ) ，159 
Small computer systems 
interface (小 卉 计算 机 系统 接口 ) ，69 
SMP, See Symmetrical multi- processing 
Snooping ( 侦 听 ) ，155，157 
SoC, See System-on-chip 
Soft core ( 软 核 )，166，369-373 
Software ( 软件 ) 
in embedded systems 〈( 藤 人 式 系统 ) ，328 
real time (实时 )，267 
support for zero overhead loops ( 支持 零 开 销 
循环) ，204 
Sony playstation (SONY 游戏 平台 ) ，238 
SPECint and SPECfp (SPEC 束 型 和 SPFC 浮 点 型 ) ， 
112 
Speculation (预测 )，182-186 
SPI, See Serial peripheral interface 
Spill code ( 泄露 代码 ) ，105 
SRAM, 115, 126, 316-317 
SSE, See Streaming SIMD extensions 
SSEM, 4 
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Stack computer (堆栈 计算 机 ) ，96，380 
Stanford University (斯 坦 福 大 学 ),， 78 
Streaming SIMD extensions (SIMD 流 扩 展 ) ，17， 
158, 164-165, 230, 293 
StrongARM, 17, 143, 428 
SUN (SUN 公司 ), 5，161 
Java processor (JAVA 处 理 器 ) ，173 
picoJAVA, 5 
picoJAVA 工 ，19 
SPARC, 20, 78, 252, 343 
Superblocks (超级 代码 段 ) ，228 
Superscalar processors (超标 量 处 理 器 ) ，199 
Supervisor mode (系统 态 ) ，280 
Symmetrical multi- processing ( 对 称 多 任务 处 理 )， 
237 
System International ( 系统 国际 化 ) ，447 
System modelling (系统 建 模 )，376 
System -on-chip (片上 系统 ) ，15，252，266，292， 
352 


T 


Task parallelism (并 行 任务 )，230 
Temporal scope (时 间 尺 度 )，268-269 
Test (测试 ) ，332 
benches (平台 )，482-483 
by development stage (开发 阶段 ) ，334 
Testing (测试 ) ，391 
Texas Instruments (德州 仪器 ) ，77 
DSP processor (DSP 处 理 器 ) ，189 
MSP430 ，296-298 ，330 
了 TMS320 ，80，178 
TMS32C50, 275 
TMS320C50，203 ，209 
TinyCPU 
ALU (算术 逻辑 单元 )，383-384，401-403 
alu. vy, 401-403 
architecture 〈 体系 结 购 ) ，381 
assembier 〈 汇 编 器 ) ，484-488 
comparison operations ( 比较 操作 ) ，387 
compiler ( 编译 器 ) ，489-490 
TinyCPU ( Coni. ) 
control system 〈 控 制 系 统 ) ，385-386 ，388 
counter v (verilog 源 程序 ) ，391-394 
data bus (数据 总 线 ) ，381-382 
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defs. v (verilog 源 程序 : 定义 的 头 文件 ) ，391 
design specification (设计 说 明 蔬 ) ，380-386 
execution state (运行 状态 ) ，389-390 
implementation (实现 ) ，390-408 
instruction handling (指令 控制 ) ，384-385 
instruction set ( 指 今 集 ) ，386-390 
instruction types (指令 类 型 )，386-387 
inventor (发 明 者 )，379 
memory space (存储 空间 )，382-383，396 
overview (综述 ) ，403-408 
programming ( 编程 ) ，409-414 
programming tools 〈 编程 工具 ) ，413-414 
RAM，382-383 
ram. y (verilog 源 程序 ) ，396-399 
stack (堆栈 ) ，382，399-401 
stack. v (verilog 源 程 序 ) ，399-401 
state machine 〈 人 矢量 状态 机 ) ，388 
state. y (verilog 源 程序 ) ，394-396 
testing (测试 ) ，408-409 
tinycpu. v (verilog 源 程 序 ) ，403-408 
writing code for (编码 )，409，484 
Tomasulo algorithm (Tomasulo 算法 ) ，196 ，240-247 
Trace table (跟踪 表 ) ，213，215 
Transistor computer ( 晴 体 管 计算 机 ) ，4，5 
Trap 《陷阱 
of program counter 〈 程序 计 数 ) ，205 
Triple redundancy 〈 一重 宛 余 ) ，341-342，430 
Tristate buffer (三 态 缓存 ) ，19，70,，71，72， 
73，122 
Turbo code (Turbo 码 ) ，341 
Turing，Alan (人 名)，3 
TWTI, See Two wire interface 
Two wire interface ( 双 线 接口 ) ，258 
Two- bit branch predictor (2- 比特 分 支 预测 ) ， 
214-215 
TX-0 computer (TX-0 计算 机 )，4 


U 


= 


-boot, 277, 326 

ARTAUSART (通用 异步 收发 器 /通用 同步 异步 收 
发 器 )，192，292，298 

ltraSPARC I, 140 

Unicode ( 统一 编码 ) ，103 

Universal serial bus (通用 毕 行 总 线 ) ，69，254， 


[em 


[em 





265, 451 
UNIX, 69, 340, 480 
USB, See Universal serial bus 


Vv 


VAX (VAX 机 器 ) ，20，273 
Vector parallelism ( 向量 并 行 )，230 
Vector processor ( 癌 量 处 理 器 )，104,，166 
Verification (验证 )，376，391，482 
Verilog (硬件 描述 语言 ) ，369，379，471 
Very large scale integration (超大 规模 集成 )，8 
Very long instruction word ( 超 长 指令 字 )， 
199, 422 

VHDL (硬件 描述 语言 ) ，369，371，390 ，408 
VIA 

Tsaiah architecture 〈Tsaiah 体系 结 爸 }，293-294， 

298 

Nano ，293-294 ，298 

Virtual memory 〈 虚拟 存储 ) ，19 ，132-133 
VLIW, See Very long instruction word 
VLSI, See Very large scale integration 
VYolatile (C 语言 中 关键 字 ) ，192，331 ，332 
Voltiage droop (电压 降 ) ，340，347 

von Neumann ( 汉 “' 诺 依 曼 ) ，17，143 ，308 


W 


Watchdog timer (看 门 狗 定 时 器 ) ，345-347 
Wetware (大脑)，445-446 
Whetstone ，benchmark 《Whetstone 标准 检测 程序 ) ， 
113 
Whirlwind (Whirlwind 计算 机 ) 1，5 
WiBro (无 线 宽带 )，467-468 
Wilkes ，Maurice (人 和 名), 4, 75 
Wireless (无 线 ) 
features (特点 ) ，280 
for embedded systems (对 于 租 人 人 式 系统 )， 
459-470 
interfacing (接口 )，282 
issues (问题 )，282-283 
technology (技术 )，280-282 
USB, 466 


X 


X-ray of circuit (电路 的 久光 图 )，333，354 


索 
x86, 21, 80, 140, 162, 164, 165, 305 worked example (工作 示例 ) ，207-208 
Xilinx, 363, 379, 390, 408 Zero padding ( 补 零 ) ，28 
ISE, 408 ZigBee, 464-465 
MicroBlaze ,378 Zilog 
Z80，291 
Z 


ZOL, See Zero overhead loop 
Zero overhead loop 〈 零 开销 循环 ) ，110，202-205 Zuse，Konrad (人 名 ) ,4 
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